動植物基因組De?novo測序分析也叫從頭測序分析,指不依賴于任何參考序列信息就可對某動植物進行測序分析,使用生物信息學方法進行序列拼接獲得某物種的基因組序列圖譜,并進行基因組結(jié)構(gòu)注釋、功能注釋、比較基因組學分析等一系列的后續(xù)分析。三代測序技術(shù)(以PacBio和Nanopore為代表)具有讀長長的特點,自2015年開始在動植物基因組De novo中初露鋒芒,已延用至今。該類型測序分析結(jié)果可以廣泛應用于農(nóng)林魚牧醫(yī)藥及海洋等各個方面的研究。
圖1 不同測序技術(shù)讀長,準確性及基因組連續(xù)性評估
PacBio測序原理
采用邊合成邊測序的方式,以其中一條DNA鏈為模板,通過DNA聚合酶合成另外一條鏈,進一步將熒光信號轉(zhuǎn)變?yōu)閴A基信號。同時PacBio已升級了CCS測序模式以獲得長讀長的高保真(HiFi)15 kb reads,由此提升基因組組裝的準確性。
圖2 三代PacBio測序原理
Nanopore測序原理
當單鏈DNA分子穿過納米孔時,相對于每個核苷酸,都會獲得不同的電流信號。記錄每個孔的離子電流變化,并基于馬爾可夫模型或遞歸神經(jīng)網(wǎng)絡(luò)的方法將其轉(zhuǎn)換為堿基序列。除此之外,Ultra-long reads (ULRs) 是ONT平臺的另一重要特征,并具有促進大型基因組組裝的潛力。
De?novo研究 | 研究內(nèi)容 | |
基因組組裝 | 多軟件組裝、組裝結(jié)果評估 | |
基因預測與注釋 | 編碼基因預測;重復序列注釋和轉(zhuǎn)座元件分類;非編碼RNA注釋;假基因注釋等 | |
Hi-C輔助基因組組裝 | 有效數(shù)據(jù)評估;Contig聚類、排序及定向分析;掛載結(jié)果評估 | |
生物學問題解析 |
比較基因組學研究 |
基因家族聚類; |
系統(tǒng)發(fā)育樹的構(gòu)建; | ||
基因家族擴張與收縮分析; | ||
物種分化時間推算; | ||
LTR形成時間估算; | ||
全基因組復制事件; | ||
選擇壓力分析 | ||
特定生物學問題剖析 | 結(jié)合組學研究方法,深入對某物種生物學問題進行解析 |
草莓基因家族聚類分析
薏苡全基因組復制事件分析
開心果系統(tǒng)進化樹與基因家族收縮擴張分析
陸地棉亞基因組共線性分析
公司成立于2009年,深耕基因組測序領(lǐng)域多年,長久以來致力于成為精準的基因組組裝專家;
擁有三代測序平臺PacBio測序全平臺和Nanopore測序全平臺,具有豐厚的雙平臺組裝及上萬種物種基因組組裝經(jīng)驗。
Hi-C染色質(zhì)構(gòu)象捕獲技術(shù)文庫有效數(shù)據(jù)比例高,掛載效率高達99%,多倍體物種研究經(jīng)驗豐富,與三代基因組組裝相結(jié)合,獲得染色體水平基因組的。同時進一步提升基因組組裝質(zhì)量。
期刊:Nature Genetics
影響因子:27.125
發(fā)表單位:中國農(nóng)業(yè)科學院棉花研究所、北京百邁客生物科技有限公司等
發(fā)表年份:2018年5月
研究背景:
棉花是研究植物多倍化的有價值的資源。亞洲棉(Gossypium arboreum)和草棉(Gossypium herbaceum)的祖先是現(xiàn)代栽培異源四倍體棉花A亞基因組的供體。 本研究中,利用了三代PacBio和Hi-C技術(shù),重新組裝了高質(zhì)量的亞洲棉基因組,分析了243份二倍體棉花種質(zhì)的群體結(jié)構(gòu)和基因組分化趨勢,同時確定了一些有助于棉花皮棉產(chǎn)量遺傳改良的候選基因位點。
研究結(jié)果:
1、亞洲棉三代基因組組裝:
利用三代測序和Hi-C相結(jié)合的方法進行亞洲棉基因組組裝。共計獲得了142.54 Gb ,組裝1.71 Gb亞洲棉基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術(shù)將組裝的1573 Mb的數(shù)據(jù)定位到13條染色體上,與已經(jīng)發(fā)表的基因組相比,當Hi-C數(shù)據(jù)比對到更新的基因組后,對角線外的不一致性明顯減少(圖1 a-b)
2、二倍體棉花群體遺傳進化分析:
對230份亞洲棉和13份草棉重測序,進行基因組比對、系統(tǒng)發(fā)育樹、群體結(jié)構(gòu)分析、PCA、LD和選擇性清除分析得出亞洲棉和草棉(A)與雷蒙德氏棉同時進行了分化;亞洲棉起源于中國南部,隨后被引入長江和黃河地區(qū),大多數(shù)具有馴化相關(guān)特性的種質(zhì)都經(jīng)歷了地理隔離(圖2)。
3、亞洲棉的全基因組關(guān)聯(lián)分析(GWAS):
對來自不同環(huán)境下的11個重要性狀進行全基因組關(guān)聯(lián)分析,鑒定了亞洲棉11個重要農(nóng)藝性狀的98個顯著關(guān)聯(lián)位點,GaKASIII的非同義替換(半胱氨酸/精氨酸替換)使得棉籽中的脂肪酸組成(C16:0和C16:1)發(fā)生了變化;發(fā)現(xiàn)棉花枯萎病抗性與GaGSTF9基因的表達激活相關(guān)。選擇了亞洲棉種質(zhì)中的158份有絨毛和57份無絨毛材料進行GWAS關(guān)聯(lián)分析,發(fā)現(xiàn)與毛狀體和纖維發(fā)育有關(guān)信息(圖3)。
研究結(jié)論:
利用三代測序+Hi-C技術(shù)完成了亞洲棉基因組的重新組裝,將基因組組裝指標從72?Kb提升到1.1 Mb,為亞洲棉后續(xù)的群體遺傳學等相關(guān)研究奠定了基礎(chǔ);通過群體遺傳進化等相關(guān)分析,發(fā)現(xiàn)亞洲棉和草棉(A型)與雷蒙德氏棉(D型)同時進行了分化,并證明了亞洲棉起源于中國南部,隨后被引入長江和黃河地區(qū);整合GWAS與QTL等分析方法,對亞洲棉脂肪酸含量,抗病性及棉絨生長發(fā)育相關(guān)基因進行定位,并進行相關(guān)功能驗證,促進了亞洲棉復雜農(nóng)藝性狀的改良。
期刊:Advanced Science
影響因子:15.804
發(fā)表單位:河南農(nóng)業(yè)大學、北京百邁客生物科技有限公司等
發(fā)表年份:2019年11月
研究背景:
花生作為我國重要的經(jīng)濟作物,是提供重要的蛋白和油料的基礎(chǔ)。花生屬一共包括30個二倍體品種,1個異源四倍體野生花生(A. monticola)和1個栽培花生(A. hypogaea)。作為栽培花生農(nóng)藝性狀改良的重要野生資源供體,野生四倍體花生一直是國內(nèi)外學者的研究熱點。研究中對花生屬唯一的野生異源四倍體花生Arachis monticola基因組進行了研究,同時對17個野生二倍體花生(AA;BB;EE;KK和CC)與30個野生和栽培四倍體花生進行了重測序分析。
研究結(jié)果:
1、野生四倍體花生基因組denovo及與栽培四倍體花生的比較分析:
基于 Illumina、PacBio 、Hi-C和光學圖譜數(shù)據(jù),組裝Arachis monticola(2n = 4x = 40)基因組大小為2.62 Gb ,contigs N50=106.66 Kb,scaffolds N50=124.92 Mb;與栽培四倍體花生A. hypogaea基因組結(jié)構(gòu)變異高度保守,且比野生祖先二倍體更加保守;
2、A、B亞基因組的單系起源和多樣性:
對17個二倍體野生種(AA、BB、EE、KK和CC)和30個野生和栽培四倍體花生進行了進化樹和PCA分析。結(jié)果表明,栽培四倍體花生與野生四倍體花生最接近, A和B亞基因組的單系起源(圖1);
3、四倍體花生不對稱亞基因組進化及表達差異 :
栽培花生和野生花生的亞基因組間的同源序列交換率(HSE)分別為2.46%和2.54%。野生花生中A到B的HSE富集的基因為類黃酮生物合成和晝夜節(jié)律途徑的基因,暗示不對稱HSEs在生物學功能中的作用;
4、SV對莢發(fā)育和馴化相關(guān)基因表達的影響及抗病基因鑒定 :
對野生四倍體花生和栽培四倍體花生不同發(fā)育階段莢果的SV分析發(fā)現(xiàn)SV在莢果發(fā)育過程中基因表達的變化上可能起著重要作用;同時在栽培四倍體花生中鑒定到190個SV抗病基因(SV-RGAs),其中32個基因在接種后易感組或抗性組中表現(xiàn)出顯著的表達變化(圖2)。
?
研究結(jié)論:
充分注釋了高質(zhì)量野生四倍體花生基因組,揭示了花生亞基因組單系起源和遺傳進化模型,表明了野生和栽培四倍體花生亞基因組發(fā)生了不對稱進化;此外,野生花生中存在的獨特等位基因可以改善栽培花生的抗性和莢果大小等形狀,為研究多倍體基因組進化、作物馴化和基因組輔助花生生產(chǎn)改良提供獨特的價值。