特異的SV是與疾病的易感性相關(guān)的,SV的區(qū)域通常包含疾病相關(guān)重要基因。許多癌癥基因組有著顯著的遺傳變異,并且特異的SV被認為能夠通過破壞基因結(jié)構(gòu),調(diào)節(jié)基因表達,創(chuàng)造融合事件或者產(chǎn)生基因拷貝數(shù)來促進腫瘤發(fā)展。不知道SV是什么的請到最下面看科普。
據(jù)統(tǒng)計,基因組結(jié)構(gòu)變異可能導(dǎo)致的遺傳性疾病已經(jīng)超過1,000種,對于每個人來講其基因組都有至少20,000個的結(jié)構(gòu)變異,這些變異帶來的影響或許比SNV或InDel還要大。然而,盡管SV的普遍存在且與癌癥特殊關(guān)聯(lián),但是許多SV分類的分子組織及產(chǎn)生機制還不明確。這在很大程度上是由于當前技術(shù)(就是二代測序)無法發(fā)現(xiàn)具有高特異性的全譜SV。
據(jù)報道,短read方法缺乏敏感性,只有10%-70%的SV可以被檢出,卻有高達89%的錯誤發(fā)現(xiàn)率,且不能鑒定復(fù)雜嵌套SV帶來的影響。
三代測序因其讀長長,能夠大幅提升SV的可靠性和分辨率。根據(jù)文章的結(jié)果和百邁客的實測數(shù)據(jù)總結(jié)起來,用ONT測SV至少要15X。
具體原因是什么呢?且聽小編細細道來~~
Pacbio和ONT測序的長read能夠大幅提升SV檢測的可靠性和分辨率。平均10kb或者更長的read可以更準確的比對到重復(fù)序列上,這些可能介導(dǎo)SV的形成。長read更可能跨過SV斷點。當然除了優(yōu)勢,長read也有新的挑戰(zhàn),Pacbio測序有10-15%的錯誤率,Oxford Nanopore?測序有5-20%錯誤率。因此急需一種新的SV檢測方法,Sedlazeck F J 等人開發(fā)了Sniffles軟件。
根據(jù)兩個人類數(shù)據(jù)集的錯誤情況和read長度,作者對兩條人的染色體模擬了50X?Pacbio?和ONT?read 。純粹的統(tǒng)計分析發(fā)現(xiàn),近10X覆蓋度的數(shù)據(jù)(平均長度10kb)就足夠去推斷所有SV斷點(一瞬間覺得自己可以省好多錢有木有),然而對于100bp的短read雙端測序至少要25X覆蓋度。當前這個統(tǒng)計只是一個理想情況,比如缺乏了重復(fù)和覆蓋度的偏移,因此是低估了所需的覆蓋度的。
理想很豐滿、現(xiàn)實很骨感!理想情況下用10x覆蓋度測三代read就能檢測出來所有的結(jié)構(gòu)變異,但是現(xiàn)實肯定不夠啦~ 作者對真實的Pacbio 55X數(shù)據(jù),和Nanopore 28X數(shù)據(jù)所檢測到的SV和低深度下所檢測的SV進行比較。對于Pacbio數(shù)據(jù),15X的時候?qū)τ贜A12878和SKBR3樣品的SV能識別到69.64%和67.24%,如果提升到30X時,可分別識別到80.05%和76.63%。SKBR3的識別率相對較低主要因為它是癌癥樣品,有些極端的拷貝擴增。所以癌癥樣品要想識別到更多更準的SV,需要適當提升測序深度。
對于Nanopore的數(shù)據(jù),在20X的覆蓋度時就能達到82.24%的準確率和84.23%的識別率。不過這可能是因為ONT數(shù)據(jù)只測了28X。
盡信書不如無書,小編本著對科研(領(lǐng)導(dǎo))的認真態(tài)度(“逼迫”),對公司的一正常人的血液進行Nanopore?DNA測序(測序深度為40X)識別SV,隨機抽取不同深度下的數(shù)據(jù)量5X,10X,15X,20X,30X使用相同的參數(shù)進行SV識別,合并所有樣品的SV,對每個樣品進行強制重新識別SV。以40X數(shù)據(jù)在支持read數(shù)大于10下所檢測出的SV為金標準,判斷低深度下所能檢測出的SV情況,如下表:
注:Genotype列代表不同深度下識別出的和40X SV基因型相同的SV個數(shù),Genotype ratio為SV占40X SV的比例。?Genotype & depth 為與40X SV基因型相同且read支持數(shù)大于10的SV個數(shù),Genotype & depth Ratio為基因型相同且read支持數(shù)大于10的SV比例。
其實從結(jié)果上可以發(fā)現(xiàn)即使只用5X測序深度的數(shù)據(jù)也能夠識別出很高比例的SV,但是如果考慮到支持的read數(shù),所能識別出的SV比例就瞬間少了很多。其實也能理解啦,畢竟深度在那里呢~
所以,依小編愚見,15X數(shù)據(jù)的結(jié)果相對還是可以的,不過該測試數(shù)據(jù)是妥妥的正常人呦,如果癌癥樣品還是建議再多測一些呢~
參考文獻
Sedlazeck F J , Rescheneder P , Smolka M , et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018.