基因組survey以測序技術為基礎,基于小片段文庫的低深度測序,通過K-mer分析,快速獲得基因組大小、雜合度、重復序列比例等基本信息,為制定該物種的全基因組de novo測序策略提供有效依據(jù)。
調研圖分析原理
調研圖分析基于k-mer的方法,所謂k-mer是指將核酸序列以滑窗的方法分成包含k個堿基的短序列,“mer”這個單詞的來源monomeric unit,單體單元。K是常數(shù),且一般為奇數(shù)(避免正反鏈混淆)。統(tǒng)計所有reads中所出現(xiàn)的k-mer類型及各類型k-mer的深度(或者頻率),繪制特定k-mer下不同深度k-mer片段的頻數(shù)統(tǒng)計圖,通常選擇K-mer分布最多的峰為主峰,從而得到基因組大小=K-mer總數(shù)/K-mer主峰深度值。
由于基因組存在雜合位點和重復序列,k-mer曲線往往不會呈現(xiàn)出良好的泊松分布,而是在主峰前后出現(xiàn)其他的峰,如果存在一定雜合度,會導致在主峰對應的橫坐標的二分之一處出現(xiàn)雜合峰,而一定的重復度則會在主峰對應的橫坐標的整數(shù)倍處出現(xiàn)重復峰。
調研圖分析內容
評估基因組大小;
評估基因組雜合情況;
評估重復序列含量;
評估基因組GC含量;
為后續(xù)精細圖階段的文庫構建提供策略建議。
基因組調研圖的意義
啟動全基因組測序的必要前提
了解與近緣物種間的基因組差異信息
獲得某物種基因組的基本信息及難易程度
(1) 測序得到不低于50倍覆蓋度的數(shù)據(jù)量。
(2) 樣本質量評估:
????a)外源物種污染率評估;
????b)線粒體含量評估;
(3) 基因組評估:
????a) 基因組大小評估;
????b) 雜合率評估;
????c) 重復序列比例評估;
????d) GC含量評估。
(1) 測序獲得xx ?Gb數(shù)據(jù),總測序深度約為xx ×,Q20比例達到xx %以上,Q30比例達到xx %以上。
(2) 通過與NT庫比對表明樣品不存在污染。
(3) 對物種的線粒體評估,發(fā)現(xiàn)線粒體含量很低。
(4) 估計基因組的大小約xx Mb,雜合率約xx %,重復序列含量約xx %。
(5) 估計基因組的GC含量約xx %。
????????分析表明,樣品不存在外源物種污染,且質體含量低,能用于構建精細圖;同時,估計基因組大小約xx? Mb,基因組的雜合率約xx %,重復序列含量約xx %,因此該物種基因組屬于高雜合的復雜基因組。推薦的測序方案為xx? ×的270 bp文庫數(shù)據(jù)和xx? ×的20 Kb三代測序文庫數(shù)據(jù)。見表1。
表1 ??精細圖文庫建庫方案
Sequence data | Library | Depth (×) | Data (Gb) |
---|---|---|---|
Fragment library | 270 bp (sequenced) | xx | xx |
Pacbio | 20 Kb | xx | xx |
Total | — | xx | xx |
????????實驗流程按照Illumina公司提供的標準protocol執(zhí)行,包括:DNA文庫制備實驗和測序實驗。實驗流程見圖1
圖1 實驗流程圖
????????提取基因組DNA ,進行小片段文庫建庫測序。分為以下四個步驟:
(1)文庫構建:物理破碎法(超聲波震蕩)將合格的基因組DNA破碎至目的片段(270 bp),然后經過末端修復、加A、加接頭、目標片段選擇和PCR等步驟構建小片段測序文庫文庫;
(2)文庫質檢:利用2100和Q-PCR檢測文庫片段大小和文庫定量,確定文庫是否符合測序標準 ;
(3)芯片固定:通過橋式PCR將文庫固定到測序芯片上;
(4)上機測序利用Hiseq測序儀對文庫進行雙端150 bp(PE 150)測序,測序所產生的數(shù)據(jù)經過質控后用于下一步信息分析。
雙端測序數(shù)據(jù)通過評估雙端測序數(shù)據(jù)通過評估(GC分布統(tǒng)計、質量值Q20、Q30評估)、過濾后得到高質量的數(shù)據(jù)(clean reads),用于基因組大小的評估、基因組的組裝、GC含量的統(tǒng)計、雜合率的統(tǒng)計(以及組裝后的評估)。具體信息分析流程見圖2。
圖2 基因組調研圖信息分析流程
????????使用醫(yī)蛭樣品的基因組DNA構建270 bp文庫,在 Illumina Hiseq測序平臺測序并過濾得到12.43 Gb高質量的數(shù)據(jù),總測序深度約為76 ×,測序數(shù)據(jù)Q20比例均在95.34%以上,Q30比例均在89.23%以上,滿足合同要求的50 ×以上的測序數(shù)據(jù)量。文庫高質量的數(shù)據(jù)量的統(tǒng)計信息見表2。
表2 ??樣品測序結果統(tǒng)計表
Library | Data (Gb) | Depth (×) | Q20 (%) | Q30 (%) |
---|---|---|---|---|
270 bp | 8.96 | 54 | 96.27 | 90.93 |
270 bp_add | 3.47 | 21 | 95.34 | 89.23 |
Total | 12.43 | 76 | — | — |
注:Library:調研圖的測序文庫;Data (Gb):相應測序文庫的測序數(shù)據(jù)量;Depth (×):測序深度;Q20 (%):測序質量值在20以上的堿基比例;Q30 (%):測序質量值在30以上的堿基比例。
????????樣品如果存在污染不僅會降低有效數(shù)據(jù)量,同時還會影響調研圖分析結果的準確性,導致基因組大小、雜合率、重復序列比例和GC含量等基因組特征評估結果出現(xiàn)較大偏差,使得基因組組裝建庫策略出現(xiàn)偏差,最終影響后續(xù)的基因組組裝效果。為了判斷提取的樣品DNA是否受到污染,我們從測序得到的270 bp文庫中,隨機取10,000條單端reads,與NT庫進行BLAST[1]比對,270 bp文庫能夠比對上NT庫的reads分別占總reads數(shù)的1.71%,其中比對到xx 和xx上的reads數(shù)分別占比對上NT庫reads數(shù)的34.5%和6.43%,這兩個物種皆為醫(yī)蛭的近緣物種,且比對結果中未發(fā)現(xiàn)植物等異常比對,因此該樣品測序數(shù)據(jù)不存在污染,可用于基因組調研圖分析。一般的評估標準:如果有一定比例的reads比對上進化距離較遠的物種如植物,微生物等,則判斷樣品可能存在污染,需要進一步檢查原因。具體比對統(tǒng)計表見表3。
表3 ??270 bp文庫NT庫比對詳表
Species | Aligned percentage (%) |
---|---|
A | 34.5 |
B | 6.43 |
C | 2.92 |
D | 2.92 |
E | 2.33 |
注:Species:比對上的物種名稱;Aligned percentage (%):比對到該物種的reads占所有比上NT庫reads的比例。
????????由于線粒體中存在核酸序列,如果物種測序文庫中線粒體DNA含量過高時,會影響后期基因組組裝。因此評估文庫中線粒體DNA含量對判斷數(shù)據(jù)能否用于后續(xù)基因組組裝非常必要。為了評估測序數(shù)據(jù)中線粒體的含量,我們利用Illumina Hiseq測序得到的270 bp文庫與醫(yī)蛭近緣物種的線粒體序列(42,362 bp)進行SOAP[2]比對。比對結果發(fā)現(xiàn)雙端比上的reads數(shù)為166,占總reads的0.00%,單端比上的reads數(shù)為13,占總reads的0.00%,這兩個的比例都低于經驗值5%。由此判斷270 bp文庫測序數(shù)據(jù)的質體含量很低,不影響后期基因組的組裝。比對統(tǒng)計結果見表4。
表4-1 ??270 bp文庫SOAP比對結果統(tǒng)計表
Type | Aligned reads number | Total reads number | Percentage (%) |
---|---|---|---|
Paired-read | 166 | 59,800,490 | 0.00 |
Single-read | 13 | 59,800,490 | 0.00 |
注:Type:比對上的reads的類型;Aligned reads number:比對上的reads條數(shù);Total reads number:總的reads條數(shù);Percentage (%):比對上的reads占總的比例。
????????利用基因組調研圖進行基因組特征的評估,分為四個方面:
1) 評估基因組大小;
2) 評估重復序列比例;
3) 評估雜合情況;
4) GC含量情況。
????????利用270 bp文庫數(shù)據(jù)構建k=19的kmer分布圖(見圖3),進行基因組大小、重復序列比率和雜合率的評估。由圖3知,平均kmer深度即主峰對應的kmer深度為62。kmer深度出現(xiàn)在主峰對應深度2倍以上的序列為重復序列,即深度大于125的kmer序列為重復序列。kmer深度出現(xiàn)在主峰對應深度一半處的序列為雜合序列,即深度出現(xiàn)在31附近的kmer序列為雜合序列。根據(jù)kmer深度信息,總kmer數(shù)目/平均kmer深度即為基因組大小,估計基因組大小約162.99 Mbp。依據(jù)kmer分布情況,估計重復序列含量約16.23%,評估出的雜合率約為1.79%,因此該物種基因組屬于高雜合的復雜基因組。
圖3 Kmer分布圖
????????基因組GC含量對二代基因組測序的隨機性有較大影響。過高(>65%)或過低(<25%)的GC含量會導致測序偏向性,嚴重影響基因組分析結果。物種GC含量是評估調研圖分析準確性和后續(xù)基因組組裝難度的重要指標之一。通過對調研圖文庫測序數(shù)據(jù)分析,該物種基因組的GC含量約38.03%,較為適中,不會影響調研圖分析的準確性。見表5。
表5 ??基因組GC含量評估
Species | GC content (%) |
---|---|
Hirudo nipponia | 38.03 |
注:Species:物種名;GC content (%):GC含量。
????????綜上所述,該基因組大小約為162.99 Mb,重復序列比例約16.23%,雜合率約1.79%,基因組的GC含量約38.03%,從基因組基本結構特征上看,該物種基因組屬于高雜合的復雜基因組。
基因組de novo測序也叫基因組從頭測序,主要針對未知物種的基因組序列以及需要更新的基因組,通過構建基因組DNA文庫,并進行測序。然后通過生物信息學的方法對測序所得到的數(shù)據(jù)進行拼接、組裝和注釋,從而獲得該物種完整的基因組序列圖譜。
三代測序具有長度長的特點,平均讀長在10-15Kb,而二代測序的讀長為PE125-250bp,所以二代測序在遇到重復序列,雜合難題時,就很無力。而三代測序能有效的解決這些問題。所以三代基因組具有超高的組裝指標,組裝錯誤率更低,組裝的完整性更好等優(yōu)點。
三代的錯誤率是隨機的堿基錯誤率,錯誤率達15%,但隨著自身覆蓋度的增加就可以進行糾錯,當覆蓋度在30X以上時,堿基準確度達99.99%以上。所以三代數(shù)據(jù)用于基因組組裝是完全沒有問題的。
基因組精細圖的樣品要盡量與調研圖樣品為同一個體,植物樣品盡量選擇無污染的組培苗、嫩葉等,而動物樣品盡量選擇全血或者內臟組織。
基因組大小、雜合度、重復序列比例及倍性判斷精準,k-mer圖示清晰易懂。
林木、草本、海洋、淡水動植物等300余種物種類型,擁有逾千例調研圖項目經驗。
提取建庫+生信分析,實力穩(wěn)扎穩(wěn)打,輔助參與多篇高質量基因組合作文章見刊于國內外雜志。