91肥熟国产老肥熟女,亚洲天堂在线观看视频,国产真实乱婬A片三区高清蜜臀,国产做受91 一片二
 分類: 轉(zhuǎn)錄組測序

一個(gè)物種不僅需要高質(zhì)量的基因組序列信息,同時(shí)還需要高準(zhǔn)確的基因注釋信息,這是后基因組時(shí)代功能基因組學(xué)研究的基礎(chǔ),因而進(jìn)行高質(zhì)量的基因注釋顯得尤為重要。

一、真核生物基因結(jié)構(gòu)及注釋方式

真核生物基因在結(jié)構(gòu)分為外顯子和內(nèi)含子,在轉(zhuǎn)錄過程中會(huì)修剪內(nèi)含子,并拼合外顯子最后形成轉(zhuǎn)錄本。正是由于這種剪切形式的存在,造成了真核生物基因可以采用不同的剪接形式(可變剪接),形成不同的轉(zhuǎn)錄本,從而發(fā)揮更加廣泛且精準(zhǔn)的作用,這也導(dǎo)致了真核生物基因結(jié)構(gòu)注釋難度較大。另外基因組中大量非編碼區(qū)域的存在也嚴(yán)重影響基因的定位,造成精準(zhǔn)注釋的困難!

圖1 真核生物基因結(jié)構(gòu)[1]

 

 

目前針對(duì)真核生物基因注釋,主要采用以下3種不同的策略:

(1)同源預(yù)測(homology-based prediction):目前已發(fā)表大量基因組,可以利用物種間基因序列較好的保守性,使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點(diǎn)。目前常用的軟件有GeneWise、GeMoMa等,GeMoMa預(yù)測效果較好。

(2)從頭預(yù)測(de novo prediction):通過已有的基因特征訓(xùn)練模型來預(yù)測基因結(jié)構(gòu),一般預(yù)測基因數(shù)量較多,準(zhǔn)確性較低,但在有好的訓(xùn)練集條件下,如有全長轉(zhuǎn)錄本提供訓(xùn)練集和預(yù)測證據(jù),也能取得很好的效果。常用的軟件有AUGUSTUS、GlimmerHMM、SNAP、GeneID、GenCsan等。

(3)基于轉(zhuǎn)錄組預(yù)測(transcriptome-based prediction):指通過物種各個(gè)組織混合的RNA-seq和三代全長轉(zhuǎn)錄本數(shù)據(jù)數(shù)據(jù)來輔助預(yù)測。由于轉(zhuǎn)錄組這種數(shù)據(jù)是轉(zhuǎn)錄本結(jié)構(gòu)的直接反應(yīng),因而利用此種類型數(shù)據(jù),可以比較真實(shí)準(zhǔn)確的確定外顯子區(qū)域和剪切位點(diǎn),在基因預(yù)測三種策略中屬于可靠性最高的策略。常用的軟件有PASA、TransDecoder、GeneMarkS-T等。

總之三種方法各有優(yōu)劣,如同源預(yù)測受限于近緣物種注釋質(zhì)量,但在近緣物種注釋質(zhì)量較高的前提下可以實(shí)現(xiàn)大多數(shù)基因的準(zhǔn)確注釋;從頭預(yù)測,預(yù)測基因數(shù)量多,但完整度好,不容易丟失一些基因,尤其是在近緣物種中沒有的新基因,但其不可避免引入一些假的預(yù)測結(jié)果;轉(zhuǎn)錄組預(yù)測,準(zhǔn)確度最高,但由于表達(dá)的基因一般也就只有60%~70%左右,所以檢測到的基因數(shù)量有限。故最后一般要用EvidenceModeler(EVM)等工具進(jìn)行三種預(yù)測策略的整合,再進(jìn)行后續(xù)的蛋白功能域、代謝通路等的注釋。

 

圖2 從頭預(yù)測、基于轉(zhuǎn)錄組預(yù)測及同源預(yù)測基因結(jié)構(gòu)展示[2]

 

 

 

二、二代轉(zhuǎn)錄組和三代全長轉(zhuǎn)錄組在基因預(yù)測中對(duì)比

二代轉(zhuǎn)錄組測序技術(shù),通常打斷成小片段進(jìn)行測序,后期通過對(duì)小片段組裝(如采用Tirnity軟件),獲取相對(duì)完整的轉(zhuǎn)錄本。但是由于測序片段較短可能會(huì)存在組裝錯(cuò)誤或者組裝不完整,導(dǎo)致不能準(zhǔn)確獲得完整轉(zhuǎn)錄本,進(jìn)而對(duì)基因預(yù)測的完整性和準(zhǔn)確性產(chǎn)生嚴(yán)重的影響。

01 獲得準(zhǔn)確的完整轉(zhuǎn)錄本

基于三代測序平臺(tái)可以直接獲取轉(zhuǎn)錄本的5ˊ到3ˊ高質(zhì)量全長序列,無需組裝,一條read即可跨越全長轉(zhuǎn)錄本,因此通過將read比對(duì)基因組就能夠非常容易的確定基因在基因組上的位置和其完整結(jié)構(gòu),因而非常有利于基因的注釋工作,且準(zhǔn)確性較高(參見下圖以水稻一個(gè)基因?yàn)槔?/p>

 

?圖3?三種數(shù)據(jù)比對(duì)基因組結(jié)果

 

圖3中最下方為參考轉(zhuǎn)錄本結(jié)構(gòu),可見三代平臺(tái)均實(shí)現(xiàn)一條read覆蓋,且存在多條read同時(shí)支持,二代平臺(tái)則由眾多短read組成,后續(xù)組裝需借助算法才能組裝到完整轉(zhuǎn)錄本,存在不確定性。

02獲得準(zhǔn)確的可變剪接

在可變剪接方面,三代全長測序結(jié)果可以捕獲更多、更準(zhǔn)的、不同可變剪切形成的轉(zhuǎn)錄本,如圖4顯示,Exon2和Exon6以及Exon9是三個(gè)轉(zhuǎn)錄本間共享,二代多數(shù)短read單條連一個(gè)外顯子區(qū)都無法跨越,對(duì)于完全比對(duì)到這3個(gè)外顯子區(qū)的短reads無法區(qū)分其來源轉(zhuǎn)錄本。而Nanopore長讀長測序可以直接得到3種全長轉(zhuǎn)錄本,因此對(duì)于轉(zhuǎn)錄本可變剪接識(shí)別更準(zhǔn)確。

圖4 ?二代轉(zhuǎn)錄組與ONT全長轉(zhuǎn)錄組識(shí)別可變剪接

 

三、Nanopore在三代全長轉(zhuǎn)錄組輔助基因預(yù)測中的優(yōu)勢

 

01數(shù)據(jù)及成本更親和

長度長在轉(zhuǎn)錄本分析方面比短讀長測序技術(shù)有明顯的優(yōu)勢。PacBio平臺(tái)由于測序原理限制,一個(gè)ZMW孔只能循環(huán)測序一個(gè)分子,加上芯片中 ZMW 孔數(shù)限制,需要較大的數(shù)據(jù)量以及更多的測序芯片才能達(dá)到飽和,成本相對(duì)較高。Nanopore測序原理使得在一個(gè)分子穿越納米孔后其他分子還可繼續(xù)穿行,更少的數(shù)據(jù)量可以獲得更多的信息,因此成本也更加親和。百邁客研發(fā)團(tuán)隊(duì)將相同物種不同平臺(tái)的結(jié)果進(jìn)行比較發(fā)現(xiàn),當(dāng)預(yù)測到數(shù)量近似相等的高準(zhǔn)確的基因時(shí),PacBio平臺(tái)所需轉(zhuǎn)錄組數(shù)據(jù)量遠(yuǎn)遠(yuǎn)多于Nanopore(表1)。

 

表1 不同物種PacBio與Nanopore獲取相近高準(zhǔn)確基因數(shù)量時(shí)對(duì)應(yīng)所需數(shù)據(jù)量

注:基因數(shù):identity和coverage均大于90時(shí)的高準(zhǔn)確基因數(shù)

02準(zhǔn)確性具有保障

三代測序的錯(cuò)誤率太高,會(huì)不會(huì)對(duì)結(jié)果有影響呢?目前Nanopore下機(jī)數(shù)據(jù)準(zhǔn)確率已經(jīng)可以到90%,即堿基平均錯(cuò)誤率為10^(-1)=10%左右,完全可以將read準(zhǔn)確的回帖到參考基因組中的,因此不會(huì)出現(xiàn)錯(cuò)誤比對(duì)的情況。唯一需要解決的是可變剪接位點(diǎn)比對(duì)位置的準(zhǔn)確性,目前我們基于自己開發(fā)的軟件NanoGAP,借助于二代RNA-seq數(shù)據(jù)、自身ONT數(shù)據(jù)及其他方法預(yù)測結(jié)果,共同糾正轉(zhuǎn)錄本剪接位點(diǎn),實(shí)現(xiàn)了在小數(shù)據(jù)量情況下與PB CCS模式下同等的準(zhǔn)確性(見表1及圖5)!

圖5?NanoGAP預(yù)測結(jié)果示意圖

 

 

圖5中分別展示了RNA-seq和ONT原始數(shù)據(jù)比對(duì)結(jié)果,參考基因的結(jié)構(gòu)和經(jīng)過NanoGAP糾正和聚類后此位置轉(zhuǎn)錄本的結(jié)構(gòu)。其中NanoGAP預(yù)測到的ONT final Alt1轉(zhuǎn)錄本,其結(jié)構(gòu)與參考基因結(jié)構(gòu)完全一樣,證明我們采ONT數(shù)據(jù)進(jìn)行預(yù)測的高準(zhǔn)確性。同時(shí)NanoGAP預(yù)測到的一個(gè)新的可變剪接ONT final Alt2,表明擁有更長讀長的ONT在獲取可變剪接方面存在一定優(yōu)勢。

 

 

03物種與數(shù)據(jù)量需求

進(jìn)行基因的預(yù)測,不同于有參條件下進(jìn)行基因的表達(dá)定量。由于三代測序存在一定的錯(cuò)誤率,所以我們需要通過增加數(shù)據(jù)量實(shí)現(xiàn)對(duì)轉(zhuǎn)錄本的糾正,進(jìn)而獲得高質(zhì)量的轉(zhuǎn)錄本,用于基因的輔助預(yù)測。那么多少數(shù)據(jù)量適合呢?不同的物種的需求是否不同呢?百邁客研發(fā)團(tuán)隊(duì)抱著這樣的疑問進(jìn)行了多輪多物種Nanopore數(shù)據(jù)檢測,研究結(jié)果顯示不同物種具有數(shù)據(jù)量需求差異,在5-20 Gb時(shí)隨著數(shù)據(jù)量的增加,預(yù)測到的高準(zhǔn)確基因數(shù)迅速上升,部分物種在10G左右預(yù)測到的高準(zhǔn)確基因數(shù)量可以達(dá)到最大,在數(shù)據(jù)到20 Gb左右時(shí),絕大多數(shù)物種已達(dá)到高準(zhǔn)確基因覆蓋度飽和。而多倍體物種在20-30 Gb時(shí),高準(zhǔn)確基因覆蓋度基本達(dá)到最大。

 

 

04具有拓展應(yīng)用

組織差異越大,基因的表達(dá)差異通常也越大,因此基于轉(zhuǎn)錄組預(yù)測的方式需要多組織進(jìn)行混樣分析以獲得更全面的基因信息。與PB相比ONT還具有無GC含量和堿基偏好性、轉(zhuǎn)錄本表達(dá)定量準(zhǔn)確的特性,在混合數(shù)據(jù)應(yīng)用于注釋分析前,可以用作多組織/多處理下的表達(dá)差異分析。實(shí)現(xiàn)樣本一次檢測多種分析,完成數(shù)據(jù)最大利用率,也為文章添光增彩。

 

 

四、案例分析

研究者分別用二代與三代全長轉(zhuǎn)錄測序?qū)﹀a蘭鉤口線蟲(Ancylostoma ceylanicum)基因結(jié)構(gòu)預(yù)測,研究發(fā)現(xiàn)三代全長測序與二代測序相比的一個(gè)顯著特點(diǎn)是UTR的數(shù)量和長度增加,尤其是3’UTR,帶有3’UTR和5’UTR的基因數(shù)量分別增加了5倍和3倍。研究結(jié)果說明了長讀長在定義基因UTR和因此更完整的ORF方面的優(yōu)勢。而研究表明UTR區(qū)域與真核生物中基因表達(dá)調(diào)控的復(fù)雜性相關(guān),進(jìn)一步說明了全長測序在基因發(fā)現(xiàn)和識(shí)別基因邊界方面的重要性[3]。

 

 

圖6 (A)3’UTR和(B)5’UTR的全長和RNA-seq之間UTR長度的差異

 

 

進(jìn)一步的基因鑒定結(jié)果顯示,基于二代轉(zhuǎn)錄本的BLASTX(紅色)和protein2genome(藍(lán)色)預(yù)測了一個(gè)短基因模型,但是全長轉(zhuǎn)錄序列(綠色)擴(kuò)展了現(xiàn)有的基因,并預(yù)測了一個(gè)新的基因[3]。除此之外,研究者通過三代全長技術(shù)共鑒定1609個(gè)(9.2%)新基因,表明了全長轉(zhuǎn)錄組的加入使基因注釋更豐富。

 

圖7 二代與三代基因結(jié)構(gòu)預(yù)測結(jié)果比較

 

 

五、尾聲

綜上所述,我們不難發(fā)現(xiàn):全長轉(zhuǎn)錄組輔助基因預(yù)測與二代技術(shù)相比具有

①三代技術(shù)直接得到全長轉(zhuǎn)錄本,無需組裝,結(jié)果更可靠,基因定位和結(jié)構(gòu)注釋更加準(zhǔn)確;

②轉(zhuǎn)錄本可變剪接識(shí)別更加容易,結(jié)果也更加可靠

③轉(zhuǎn)錄本的5’和3’端覆蓋更均勻、完整,基因的UTR(非翻譯區(qū))定位更加精準(zhǔn)等優(yōu)勢;

而三代測序中,Nanopore與PacBio相比,又具有低數(shù)據(jù)量飽和的優(yōu)勢(大多數(shù)物種20 Gb基本可以達(dá)到飽和及分析需求),低成本高收益的方式為科研之路提供了新的方向。

隨著技術(shù)的普及,越來越多的基因組文章已通過三代全長技術(shù)來改進(jìn)基因組注釋:

(1)全長轉(zhuǎn)錄組提升玉米基因組注釋(Li C?et al., Nature Communications.2020):

 

(2)ONT輔助金線鯔魚轉(zhuǎn)錄組注釋統(tǒng)計(jì)(Kadobianskyi M et al., Scientific Data.2019):

如果您對(duì)全長轉(zhuǎn)錄組測序技術(shù)感興趣,您可以點(diǎn)擊下方按鈕聯(lián)系我們,我們將免費(fèi)為您設(shè)計(jì)文章思路方案。

更多使用全長轉(zhuǎn)錄進(jìn)行基因組注釋優(yōu)秀案例(2020):

參考文獻(xiàn):
[1] Shafee, Thomas, Lowe, Rohan et al. Eukaryotic and prokaryotic gene structure. WikiJournal of Medicine.2017
[2] Yandell M , Ence D . A beginner’s guide to eukaryotic genome annotation.[J]. Nature Reviews Genetics. 2012
[3]Magrini V, Gao X, Rosa B A,?et al. Improving eukaryotic genome annotation using single molecule mRNA sequencing. BMC Genomics. 2018.
最近文章