2019年7月22日,Nanopore平臺全新測序芯片R10到達(dá)百邁客實驗室,百邁客將開啟ONT平臺測序新征程!
近年來,由于三代測序相較于二代測序,擁有單分子無需擴(kuò)增,長度長等優(yōu)勢,因此在各組學(xué)研究中大放異彩。而作為三代測序的代表技術(shù)之一,Nanopore平臺因能獲得更長讀長,在基因組學(xué)研究中更是備受青睞。但相較于二代平臺,三代平臺測序數(shù)據(jù)的準(zhǔn)確性一直是比較大的劣勢。本次Oxford Nanopore Technologies公司即將推出的R10芯片,則劍指準(zhǔn)確性。相較于當(dāng)前廣泛使用的R9.4.1芯片,新型R10芯片可提供相當(dāng)?shù)淖x長,產(chǎn)量及更準(zhǔn)確的數(shù)據(jù)。
R10芯片測序原理
新升級R10芯片大的更新是納米孔采用了雙讀取器(Reader)的設(shè)計,能夠?qū)ν粔A基進(jìn)行兩次信號識別。理論上,同一堿基的識別次數(shù)為R9.4.1版本芯片2倍,由此來增加堿基的判斷率,減小隨機(jī)錯誤,并提高一致準(zhǔn)確性。R10與R9.4.1測序方式比較如圖1
圖1??測芯片更新前后測序方式比較
01、單reads測序準(zhǔn)確性:
目前主流的R9.4.1芯片的表現(xiàn)能力如何?我們隨機(jī)抽取了200個已經(jīng)完成常規(guī)ONT DNA測序的樣品(包含各種動植物)進(jìn)行統(tǒng)計,總共約22.4T數(shù)據(jù)(足夠有代表性了),結(jié)果如下:
可以看到,R9.4.1芯片數(shù)據(jù)的讀長是非常理想的:Reads N50高達(dá)到72 Kb,平均達(dá)到35 Kb;單分子讀長高達(dá)到了1.6 Mb;而關(guān)于質(zhì)量值平均為8.3,對應(yīng)準(zhǔn)確性為:85.21%;單個樣品平均質(zhì)量值高達(dá)到9.7,對應(yīng)準(zhǔn)確性為:89.28%;
R10的質(zhì)量表現(xiàn)如何呢?我們統(tǒng)計了拿到的四個樣品的數(shù)據(jù),具體統(tǒng)計結(jié)果見下圖:
圖2 R10數(shù)據(jù)質(zhì)量值分布
絕大部分R10 reads的質(zhì)量值達(dá)到了10以上(對應(yīng)準(zhǔn)確性為90.0%),而平均質(zhì)量值為12.1(對應(yīng)準(zhǔn)確性為93.8%),而reads質(zhì)量值已經(jīng)達(dá)到了15以上(對應(yīng)準(zhǔn)確性為96.84%)。由此可見,對于單條reads來說,提升還是非常明顯的,平均reads準(zhǔn)確性從85%提升到了93.8%。
02、Consensus序列準(zhǔn)確:
看完單條reads準(zhǔn)確性后,那么組裝時用到的高深度consensus序列準(zhǔn)確性怎么樣呢?官方比較了同一樣本不同芯片測結(jié)果的準(zhǔn)確性,見圖3。從結(jié)果可知,相同測序深度的情況下,consensus后序列的準(zhǔn)確性Q值,R10比R9.4.1提升了5~10之間,對應(yīng)的準(zhǔn)確性有的提升了1個百分點之多。
圖3?不同物種中R10和R9.4.1 reads準(zhǔn)確度
從官方的數(shù)據(jù)顯示,當(dāng)數(shù)據(jù)深度為50X時,R10測序數(shù)據(jù)的consensus序列的準(zhǔn)確性已經(jīng)達(dá)到了Q44,即99.996%以上(圖4)。且隨著測序深度的增加,R10芯片一致準(zhǔn)確性逐漸增加。官方對多物種測試發(fā)現(xiàn),在100X的測序深度下,consensus準(zhǔn)確性可以保持在Q45以上,在有些樣本上甚至已達(dá)到Q50(99.999%)水平(圖4),當(dāng)然加大測序深度也可以想要達(dá)到更高水平,測試結(jié)果中,最高已經(jīng)達(dá)到了Q52(99.9994%)。需要注意的是,這都是未經(jīng)過二代測序數(shù)據(jù)矯正的結(jié)果!
圖4 ?不同測序深度下R10 consensus序列準(zhǔn)確性比較
03、同聚物識別準(zhǔn)確性:
同聚物的識別準(zhǔn)確性是大家一直都比較關(guān)心的問題,從ONT官方釋放的測試結(jié)果顯示,相比于R9.4.1,R10版本芯片能夠顯著提高其在同聚物區(qū)域的堿基識別準(zhǔn)確度,并且?guī)缀醪粫肴笔уe誤(圖5)。
圖5 R10、R9.4.1芯片在同聚物區(qū)域的測序準(zhǔn)確度
04、數(shù)據(jù)錯誤分布:
官方通過檢測同一樣本R10和R9.4.1中的錯誤在基因組上的情況,發(fā)現(xiàn)R9.4.1與R10的錯誤在基因組上分布并不是完全重疊的,通過兩種版本芯片的數(shù)據(jù)進(jìn)行混合分析,可極大地提高序列的準(zhǔn)確性(圖6)。這表明了,在不使用二代數(shù)據(jù)的前提下,后續(xù)也可考慮通過R10和R9.4.1數(shù)據(jù)組合的方式來提高結(jié)果的準(zhǔn)確度!
圖6?R10和R9.4.1錯誤分布情況
小結(jié)
