91肥熟国产老肥熟女,亚洲天堂在线观看视频,国产真实乱婬A片三区高清蜜臀,国产做受91 一片二
 分類: 基因組測(cè)序

DNA測(cè)序技術(shù)在過(guò)去的40年中,經(jīng)歷了巨大的改進(jìn)與變化。早在1977年,首次報(bào)道了Sanger和Maxam–Gilbert測(cè)序方法,Sanger測(cè)序的最大序列長(zhǎng)度約1 kb。其對(duì)DNA總量的要求較高,一般通過(guò)克隆靶標(biāo)DNA序列并連接載體,進(jìn)而通過(guò)原核細(xì)胞大腸桿菌(E. coli)擴(kuò)增(當(dāng)時(shí)基因組De novo采用BAC文庫(kù)測(cè)序方式),其讀長(zhǎng)短且耗時(shí);NGS(Next-Generation Sequencing )二代測(cè)序包含很多技術(shù)平臺(tái),其特征是對(duì)大量的DNA分子并行測(cè)序,多年來(lái)已有4個(gè)主要的NGS平臺(tái)投入商業(yè)使用:羅氏454平臺(tái), Illumina GA/Solexa 平臺(tái), ABI SOLiD平臺(tái)和Life Torrent平臺(tái)。在過(guò)去的10年中,Illumina因其低成本,高速和高產(chǎn)而成為測(cè)序市場(chǎng)的主要供應(yīng)商,Illumina測(cè)序平臺(tái)具有廣適性,因此NGS已廣泛用于探索基因組學(xué)的各個(gè)領(lǐng)域,包括腫瘤學(xué),微生物學(xué),環(huán)境基因組學(xué),宏基因組學(xué)及醫(yī)學(xué),環(huán)境和農(nóng)業(yè)研究等,隨時(shí)其廣泛的應(yīng)用,其劣勢(shì)也逐漸的突顯,即:二代測(cè)序(Illumina為代表)讀長(zhǎng)短仍然是生物學(xué)研究的重要瓶頸,這限制了許多生物學(xué)研究的準(zhǔn)確性,尤其是在基因組組裝研究中。在片段重復(fù)(segmental duplication),結(jié)構(gòu)變異(SV,structural variations)或旁系同源區(qū)段分析中使用短讀長(zhǎng)測(cè)序可能會(huì)導(dǎo)致大量假陽(yáng)性。盡管測(cè)序技術(shù)和生物信息學(xué)分析在進(jìn)步,但大型基因組的從頭組裝仍然具有挑戰(zhàn)性。自2015年起,以PacBio和Nanopore為代表的長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)開始在動(dòng)植物基因組De novo中初露鋒芒(圖1 A和B)。

圖1 不同測(cè)序技術(shù)讀長(zhǎng),準(zhǔn)確性及基因組連續(xù)性評(píng)估

一、三代長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)的發(fā)展

?長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)(Long read single-molecule sequencing technology)又稱第三代測(cè)序技術(shù)TGS(Third-Generation Sequencing),早在2004年,由美國(guó)太平洋生物科學(xué)公司Pacific Biosciences (PacBio)?創(chuàng)立的實(shí)時(shí)(SMRT)測(cè)序是較早被廣泛使用的長(zhǎng)讀測(cè)序技術(shù),SMRT測(cè)序產(chǎn)生的Reads可達(dá)到約200 kb。其提供了技術(shù)上的優(yōu)勢(shì),以鑒定遺傳變異并進(jìn)一步研究其基因功能,同時(shí)作為動(dòng)植物基因組組裝日臻進(jìn)步完善的主要驅(qū)動(dòng)力,自2015年,首篇純PacBio三代數(shù)據(jù)組裝復(fù)活草(Nature. 2015)基因組見刊Nature,開啟了三代動(dòng)植物基因組De novo的紀(jì)元。與Sanger測(cè)序和NGS測(cè)序類似,PacBio測(cè)序同樣采用邊合成邊測(cè)序的方式,以其中一條DNA鏈為模板,通過(guò)DNA聚合酶合成另外一條鏈(圖2 A和B)。PacBio測(cè)序平臺(tái)相繼推出RS II,Sequel和Sequel II平臺(tái)并投入使用(Table 1)。2005年,英國(guó)牛津納米孔技術(shù)公司

圖2 三代PacBio測(cè)序原理

Oxford Nanopore ?Technologies(ONT)創(chuàng)立了單分子納米孔測(cè)序,其主要原理是當(dāng)單鏈DNA/RNA分子的核酸堿基蛋白納米孔時(shí)(固定在鹽溶液浸沒膜上的蛋白質(zhì)納米孔,固定膜上施加了固定電壓),通過(guò)創(chuàng)新的技術(shù)識(shí)別離子電流的微小變化,即:當(dāng)DNA分子穿過(guò)納米孔時(shí),相對(duì)于每個(gè)核苷酸,都會(huì)獲得不同的電流信號(hào)。記錄每個(gè)孔的離子電流變化,并基于馬爾可夫模型或遞歸神經(jīng)網(wǎng)絡(luò)的方法將其轉(zhuǎn)換為堿基序列(圖3)。其優(yōu)勢(shì)之一是支持RNA直接測(cè)序,除此之外,Ultra-long reads (ULRs) 是ONT平臺(tái)的另一重要特征,并具有促進(jìn)大型基因組組裝的潛力。Nanopore測(cè)序平臺(tái)相繼推出MinION,GridION,PromethION及Flongle平臺(tái)并投入使用(Table 2)。
圖3 三代Nanopore測(cè)序原理

二、三代長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)PacBio和Nanopore的比較

PacBio和Nanopore具有共同的優(yōu)點(diǎn),即長(zhǎng)讀長(zhǎng);同時(shí)也具有共同的缺點(diǎn)即高錯(cuò)誤率(糾錯(cuò)前隨機(jī)分布的?5–20%堿基錯(cuò)誤率),隨著新測(cè)序儀和生物信息學(xué)的不斷發(fā)展,測(cè)序平臺(tái)的優(yōu)缺點(diǎn)有望發(fā)生改變,無(wú)論是PacBio還是ONT測(cè)序平臺(tái)都致力于獲得更長(zhǎng)讀長(zhǎng)的reads的同時(shí),兼獲高準(zhǔn)確的堿基序列信息。

?
圖4 PacBio與Nanopore測(cè)序原理及信號(hào)識(shí)別原理比較
PacBio CCS高精準(zhǔn)測(cè)序:早在2017年,研究人員分別利用了PacBio和Nanopore平臺(tái)測(cè)序進(jìn)行了酵母基因組De novo,進(jìn)一步發(fā)現(xiàn)PacBio測(cè)序平臺(tái)的準(zhǔn)確性略高于Nanopore測(cè)序平臺(tái)(Giordano et al. 2017)。為了解決PacBio較高錯(cuò)誤率的問題,PacBio已升級(jí)了CCS測(cè)序模式以獲得長(zhǎng)讀長(zhǎng)的高保真(HiFi)15 kb reads,Circular Consensus Sequencing (CCS) read: 環(huán)形一致性序列,這種一致性序列通過(guò)對(duì)來(lái)自單個(gè)ZMW中的subreads進(jìn)行比對(duì)產(chǎn)生。產(chǎn)生的CCS reads使用CCS算法需要至少三輪讀取來(lái)自插入片段的subreads,單條CCS read準(zhǔn)確性可達(dá)99%以上(圖5)。Sequel II System 2.0版本試劑雖然使得HiFi文庫(kù)的插入片段長(zhǎng)度提升至15-20 kb,從而更好的支持基因組從頭組裝,但是對(duì)于組裝來(lái)說(shuō),長(zhǎng)度仍有較大的提升空間。
圖5 PacBio CCS測(cè)序原理及準(zhǔn)確性評(píng)估

Nanopore超長(zhǎng)讀長(zhǎng)測(cè)序:盡管組裝方法不斷在改進(jìn),且已開發(fā)物理圖譜技術(shù)(光學(xué)圖譜),但讀長(zhǎng)長(zhǎng)短仍然是高質(zhì)量動(dòng)植物基因組的限制因素。如植物基因組由于高雜合,及其復(fù)雜的多倍性和高重復(fù)含量,其組裝仍然具有挑戰(zhàn)性,讀長(zhǎng)必須超過(guò)基因組中的主要重復(fù)序列長(zhǎng)度,及嵌合的長(zhǎng)末端重復(fù)序列(LTR)或單倍型Blocks,其長(zhǎng)度可能跨越20–200 kb。雖然PacBio是提供Long Reads(>1 kb)的技術(shù),且通常 Reads N50長(zhǎng)度可大于20 kb,但即便是幾乎完美的15 kb reads可能無(wú)法組裝復(fù)雜植物基因組中經(jīng)常出現(xiàn)的嵌合及高度相似的重復(fù)序列。而ONT測(cè)序平臺(tái)大大解決了這一問題,與PacBio reads平均長(zhǎng)度項(xiàng)目(圖6),一小部分ONT reads讀長(zhǎng)超過(guò)300 kb,同時(shí)PacBio不包含任何大于150 kb的reads。許多復(fù)雜的植物基因組具有大于20 kb或更長(zhǎng)的重復(fù)序列,所以即便目前ONT具有一定錯(cuò)誤率,但其大大促進(jìn)了基因組的組裝,從而顯著提高了基因組連續(xù)性或完整性。例如:使用ONT測(cè)序更新的擬南芥Col-0基因組最終通過(guò)組裝,減少到40個(gè)Contigs,且跨越了染色體臂(端粒到著絲粒),同時(shí)解決了前期在TAIR10參考基因組中存在的gaps及組裝錯(cuò)誤(Jupe et al. 2020)。

圖6 三代Nanopore和PacBio測(cè)序讀長(zhǎng)比較

三、百邁客雙平臺(tái)(Nanopore+PacBio)動(dòng)植物基因組De novo研究策略—魚和熊掌可兼得

“魚,我所欲也,熊掌亦我所欲也;二者不可得兼,舍魚而取熊掌者也。正如在動(dòng)植物基因組研究中,針對(duì)基因組組裝,為了兼顧長(zhǎng)讀長(zhǎng)的同時(shí),獲得高準(zhǔn)確性的物種基因組密碼信息,在選擇測(cè)序技術(shù)選擇(PacBio or Nanopore?)上總會(huì)有魚和熊掌不可兼得的感覺。長(zhǎng)久以來(lái),百邁客一直致力于成為“專業(yè)的基因組組裝專家”,擁有雙平臺(tái)的基礎(chǔ)上(2015年首次引進(jìn)PacBio平臺(tái);2017年首次引進(jìn)Nanopore平臺(tái)),力求整合雙平臺(tái)各自的優(yōu)勢(shì),著力于開發(fā)各種軟件、算法,為每個(gè)物種提供訂制的“基因組套餐”,即打造高質(zhì)量,高完整性的物種基因組。從本章節(jié)起,小編后續(xù)會(huì)結(jié)合新的技術(shù)策略、測(cè)試數(shù)據(jù)及文章案例,為大家?guī)?lái)全新的基因組研究策略,旨在獲得高度連續(xù)性基因組的前提下,同時(shí)完成高準(zhǔn)確性動(dòng)植物基因組密碼的破譯,即魚與熊掌可兼得。

首先通過(guò)百邁客三代Nanopore和PacBio平臺(tái)相關(guān)物種測(cè)序讀長(zhǎng)(表1)及組裝結(jié)果的比較(表2),進(jìn)一步通過(guò)我們的實(shí)際案例來(lái)看一下Nanopore測(cè)序平臺(tái)在基因組組裝中的優(yōu)勢(shì)。

表1 Nanopore與PacBio平臺(tái)實(shí)測(cè)物種數(shù)據(jù)讀長(zhǎng)比較

通過(guò)雙平臺(tái)實(shí)測(cè)數(shù)據(jù)的比較分析: Nanopore平臺(tái)平均讀長(zhǎng)為28.5 Kb左右,Reads N50平均讀長(zhǎng) 38Kb左右;PacBio CLR平均讀長(zhǎng)20 Kb左右,Reads N50平均讀長(zhǎng) 28Kb左右;CCS平均讀長(zhǎng)12-15 Kb,Reads N50 16~18Kb,發(fā)現(xiàn)Nanopore比PacBio平臺(tái)讀長(zhǎng)高10 Kb左右,而PacBio CCS模式讀長(zhǎng)遠(yuǎn)低于CLR模式。

同時(shí)通過(guò)PacBio和Nanopore雙平臺(tái)測(cè)序數(shù)據(jù)組裝結(jié)果的比較發(fā)現(xiàn),利用PacBio數(shù)據(jù)進(jìn)行基因組組裝Contig N50一般達(dá)到Mb級(jí)別,而利用Nanopore數(shù)據(jù)進(jìn)行基因組組裝,Contig N50指標(biāo)平均水平基本能再提升2倍或者更高,甚至許多物種能達(dá)到幾十Mb(如百邁客利用Nanopore測(cè)序平臺(tái)組裝的水產(chǎn)動(dòng)物綠鰭?cǎi)R面鲀基因組,Contig N50高達(dá)22 Mb)。

表2?Nanopore與PacBio平臺(tái)實(shí)測(cè)物種組裝指標(biāo)比較

由于Nanopore測(cè)序Reads讀長(zhǎng)長(zhǎng),PacBio Sequel II HiFi模式測(cè)序準(zhǔn)確性高達(dá)99%以上,為了同時(shí)利用其雙平臺(tái)各自的優(yōu)勢(shì),我們擬通過(guò)Nanopore測(cè)序數(shù)據(jù)對(duì)某多倍體植物進(jìn)行基因組組裝,同時(shí)通過(guò)低深度PacBio CCS數(shù)據(jù)進(jìn)行Polish,進(jìn)而對(duì)該多倍體植物基因組連續(xù)性,完整性及準(zhǔn)確性進(jìn)行評(píng)估,以獲得高連續(xù)性,高準(zhǔn)確的基因組密碼信息,測(cè)試結(jié)果如下:

1. 某多倍體植物組裝基本信息
2.?采用不同深度下的PacBio CCS數(shù)據(jù)進(jìn)行Polish,然后利用真核有胚植物數(shù)據(jù)庫(kù)對(duì)不同深度PB CCS Polish的結(jié)果進(jìn)行BUSCO完整性評(píng)估,以獲得最佳的CCS數(shù)據(jù)矯正深度,分析結(jié)果如下:
分別利用5x,10x,15x和20x的PacBio CCS數(shù)據(jù)進(jìn)行Polish,發(fā)現(xiàn)當(dāng)利用10xCCS數(shù)據(jù)進(jìn)行Polish后,隨著CCS數(shù)據(jù)深度的增加(15x,20x),BUSCO完整性比率無(wú)進(jìn)一步提升,基本在97.43%左右,通過(guò)CCS數(shù)據(jù)矯正的梯度設(shè)置,進(jìn)一步證明了10x PacBio CCS數(shù)據(jù)足以保證基因組完整性評(píng)估。
3.?采用不同測(cè)序平臺(tái)數(shù)據(jù)對(duì)Nanopore原始組裝結(jié)果進(jìn)行Polish,進(jìn)而利用真核有胚植物數(shù)據(jù)庫(kù)進(jìn)行BUSCO完整性評(píng)估,完整性比對(duì)結(jié)果如下:
通過(guò)比較Nanopore數(shù)據(jù)原始組裝、Nanopore Polish、Nanopore Polish+二代Polish及PacBio CCS Polish后基因組的完整性,發(fā)現(xiàn)基因組的BUSCO完整性比例逐漸升高,分別為:77.01%,93.96%,95.28%和97.43%,當(dāng)利用10 x PacBio CCS數(shù)據(jù)Polish后,BUSCO完整性比例最高,約為97.43%,說(shuō)明了前期推測(cè)的準(zhǔn)確性,即可利用高深度的Nanopore數(shù)據(jù)進(jìn)行組裝以提升基因組組裝指標(biāo),進(jìn)而利用低深度的PacBio CCS數(shù)據(jù)提升基因組完整性。

4.?不同深度CCS 數(shù)據(jù)Polish后二代數(shù)據(jù)回比結(jié)果

利用5x,10x,15x和20x的PacBio CCS數(shù)據(jù)對(duì)基因組進(jìn)行Polish,然后利用50x的二代數(shù)據(jù)回比到基因組上,最后發(fā)現(xiàn)回比率相當(dāng),雙端比對(duì)效率97%左右。

5.?通過(guò)將20?x?CCS數(shù)據(jù)分別回比到10 x PacBio CCS polish及100 x Nanopore+50 x Illumina Polish后基因組,截取基因組上特性區(qū)域,進(jìn)行組裝基因組單堿基準(zhǔn)確性的比對(duì)與評(píng)估,發(fā)現(xiàn)10?x?PacBio CCS polish后的結(jié)果提升效果明顯,我們挑選了幾個(gè)實(shí)例如下:

區(qū)域1:

PacBio CCS回比結(jié)果(10x CCS Polish基因組)
PacBio CCS回比結(jié)果(100 x ONT+50 x Illumina Polish基因組)

區(qū)域2:

PacBio CCS回比結(jié)果(10x CCS Polish基因組)

PacBio CCS回比結(jié)果(100x Nanopore+50x Illumina Polish基因組)

上述分析結(jié)果中,進(jìn)一步證實(shí)了前期的推測(cè),利用Nanopore超長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì),組裝獲得高連續(xù)性基因組(Contig N50 約10 Mb),同時(shí)結(jié)合PacBio CCS高準(zhǔn)確性測(cè)序,進(jìn)一步提升基因組中單堿基的準(zhǔn)確度,即魚和熊掌可兼得。高連續(xù)性基因組的獲得,對(duì)后續(xù)功能基因定位,結(jié)構(gòu)變異檢測(cè)具有重要的意義;同時(shí)高準(zhǔn)確的基因組的獲得,對(duì)于超大基因組,多倍體基因組等復(fù)雜基因組的LTR的熱點(diǎn)區(qū)域的研究更具突破性的意義。除此之外。在很多動(dòng)植物基因組上的確存在高度復(fù)雜的區(qū)域,即使通過(guò)高深度PacBio?CCS數(shù)據(jù)依然無(wú)法矯正,這就需要通過(guò)其它相應(yīng)的技術(shù)及軟件參數(shù)整合來(lái)提升基因組的準(zhǔn)確性。

四、雙平臺(tái)(Nanopore+PacBio)基因組De novo高分文章賞析

文章案例1:同源多倍體紫花苜?;蚪M
期刊:Nature Communications

發(fā)表時(shí)間:2020年5月
基因組De novo策略:PacBio CCS+ONT+ALLHiC

在對(duì)同源四倍體紫花苜蓿(Medicago sativa?L.)基因研究中,首先利用了70 GB,~22x PacBio CCS數(shù)據(jù)進(jìn)行基因組組裝,組裝獲得紫花苜?;蚪M大小3154 Mb,Contig N50=459 kb, 然后利用ALLHiC進(jìn)行同源染色體組群的劃分,最后通過(guò)Hi-C互作熱圖、遺傳圖譜共線性、ONT數(shù)據(jù)回比、BUSCO完整性、轉(zhuǎn)錄組對(duì)基因組完整性等進(jìn)行評(píng)估,值得注意的是在ONT數(shù)據(jù)回比評(píng)估中(Table 3),文中篩選了99 GB ONT long reads中的最長(zhǎng)200條reads(ranged from 95 to 263 Kb)進(jìn)行回比,發(fā)現(xiàn)89%的的reads都能比對(duì)到single染色體上,結(jié)合其它評(píng)估方法,進(jìn)一步說(shuō)明了組裝及染色體位置的準(zhǔn)確性。

文章案例2:小墊柳基因組
期刊:Nature Communications

發(fā)表時(shí)間:2019年11月
基因組De novo策略:ONT+PacBio +HiC

在小墊柳(Cushion willow)基因組組裝中,首先利用SMARTdenovo對(duì)糾錯(cuò)后的74xONT數(shù)據(jù)進(jìn)行組裝,然后分別利用125xPacBio數(shù)據(jù)(two rounds )與Illumina數(shù)據(jù)(five rounds )進(jìn)行polish,基因組完整性評(píng)估后,利用Hi-C將Contig掛載到染色體水平,最終組裝獲得小墊柳基因組大小339.588 Mb,Contig N50=9.522 Mb。?(Table 4)

五、百邁客Nanopore、PacBio平臺(tái)動(dòng)植物基因組合作文章總覽(部分)

北京百邁客生物科技有限公司自2015年引入Pacbio測(cè)序平臺(tái),2017年初引入Nanopore測(cè)序平臺(tái)以來(lái),截止到目前百邁客已擁PacBio平臺(tái):RS Ⅱ、PacBio Sequel、PacBio sequel Ⅱ;Nanopore 平臺(tái):PromethION-48、PromethION-β、Nanopore GridION、MinION,擁有主流三代測(cè)序儀,尤其針對(duì)復(fù)雜超大基因組測(cè)序,百邁客生物具有三代測(cè)序通量,以滿足超大基因組的組裝需求。同時(shí)PacBio和Nanopore兩大主流三代測(cè)序平臺(tái)各自及組合經(jīng)驗(yàn),為老師們提供了可參考且全面優(yōu)質(zhì)的選擇!選擇我們,提供專屬于您基因組套餐!

百邁客現(xiàn)提供測(cè)序分析+分子試劑一站式解決方案:基因表達(dá)量驗(yàn)證:反轉(zhuǎn)試劑盒+qPCR試劑盒;SNP驗(yàn)證:PCR Mix;克隆驗(yàn)證:PCR Mix+無(wú)縫克?。籇NA、RNA提取試劑盒解決疑難物種提取。期待與您的合作?。?!
參考文獻(xiàn):
1.?Midha, M. K.?et al. Long-read sequencing in deciphering human genetics to a greater depth.?Human Genetics(2019).
2.?Michael, T. P.?et al. Building near-complete plant genomes.?Current Opinion in Plant Biology(2020).
3.?Goodwin, S.?et al. Coming of age: ten years of nextgeneration sequencing technologies.?Nature Reviews?|Genetics(2016).
4.?Chen, H.?et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa.?Nature Communications(2020).
5.?Chen, J. H.?et al. Genome-wide analysis of Cushion willow provides insights into alpine plant divergence in a biodiversity hotspot.?Nature Communications(2019).
最近文章