公司新的三代項(xiàng)目文章-動(dòng)物篇
兔子(Oryctolagus cuniculus),是重要的哺乳動(dòng)物,基因組大小為2.66Gb,由于其與人類系統(tǒng)發(fā)育關(guān)系密切,并且具有生命周期短、性格溫順等特點(diǎn),因此在生物醫(yī)學(xué)研究中將兔子作為模式動(dòng)物。特別是,兔子在脂蛋白代謝方面與人類相似,因此被認(rèn)為是研究人類高膽固醇的常用動(dòng)物模型。轉(zhuǎn)錄多樣性對(duì)真核生物的生物調(diào)控有很大貢獻(xiàn),本研究中采用PacBio單分子長(zhǎng)讀長(zhǎng)測(cè)序技術(shù),用于繪制兔的轉(zhuǎn)錄本圖譜。
1、材料和方法
材料:3只新西蘭母兔,分別取21日齡、49日齡、84日齡,7個(gè)不同部位的組織器官(腦、心臟、肺、肝、脾、腸竇、后腿骨骼?。?,共21個(gè)樣本,分別提取RNA,等量RNA混合為單個(gè)樣品,分別進(jìn)行二代和三代測(cè)序。
測(cè)序策略:
二代測(cè)序:Illumina平臺(tái)、PE150測(cè)序;
三代測(cè)序:構(gòu)建0–1, 1–2, 2–3, 3–6 和5–10 kb五個(gè)文庫(kù),PacBio RS II平臺(tái)測(cè)序,共測(cè)13個(gè)SMRT Cell
方法和思路:“3+2”測(cè)序模式,對(duì)混合的RNA進(jìn)行測(cè)序,獲得高可信度的轉(zhuǎn)錄本,完善參考基因組注釋,比較三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序和二代轉(zhuǎn)錄組測(cè)序在旁系同源基因的還原上的優(yōu)勢(shì),由此說明通過PacBio鑒定得到的轉(zhuǎn)錄本能夠更好的注釋基因以及還原基因結(jié)構(gòu)。
2、結(jié)果與分析
2.1三代測(cè)序和糾錯(cuò)
共獲得802,358個(gè)ROIs序列,其中有1.466,034全長(zhǎng)非嵌合(FL)序列和316,000非全長(zhǎng)(nFL)序列。
同時(shí),二代測(cè)序獲得~120百萬clean reads,這些序列用來對(duì)三代的測(cè)序結(jié)果進(jìn)行校正,顯示總共135,178個(gè)序列(86.2%)被二代測(cè)序數(shù)據(jù)校正,錯(cuò)誤片段的長(zhǎng)度比例相對(duì)較低(中位數(shù)8%)。
Figure 1.ROIs的分類和糾錯(cuò)
2.2 可變剪接和聚腺苷酸化
PacBio鑒定到多達(dá)24,797個(gè)AS事件,并對(duì)這些可變剪接進(jìn)行分類統(tǒng)計(jì)(Table 1),在兔的參考基因組中僅發(fā)現(xiàn)2,398個(gè)AS事件,將數(shù)據(jù)合并后共得到34,173個(gè)AS事件,且可變剪接事件包含不同的4中類型,另外,鑒定到11,184個(gè)APA事件。挑選5個(gè)基因,并用圖表示出不同的isoform比對(duì)到參考基因模型上(Figure 2)。
Table 1.可變剪接事件分析(IR:內(nèi)含子保留;ES:外顯子跳躍;Alt.5’:可變的5’端;Alt.3’:可變的)
Figure 2. 三代測(cè)得轉(zhuǎn)錄本的不同isoforms,在數(shù)據(jù)庫(kù)中的參考基因模型如圖示中被標(biāo)記有染色體位置、基因ID和基因名稱
2.3 與已知參考基因比對(duì)分析
通過對(duì)PacBio鑒定到的轉(zhuǎn)錄本的分析發(fā)現(xiàn),有3,334個(gè)基因位點(diǎn)包含了3,637個(gè)轉(zhuǎn)錄本在參考基因中沒有注釋,并且有12,112個(gè)轉(zhuǎn)錄本被注釋到參考基因的內(nèi)含子上,這些新發(fā)現(xiàn)的轉(zhuǎn)錄本大部分長(zhǎng)度為1000~2000bp。
2.4 非編碼RNA分類
通過比對(duì)到參考蛋白數(shù)據(jù)庫(kù),有30,183個(gè)轉(zhuǎn)錄本可編碼蛋白、6,003個(gè)轉(zhuǎn)錄本不能編碼蛋白,并且這些非編碼的轉(zhuǎn)錄本外顯子少、表達(dá)量低、且外顯子與內(nèi)含子在長(zhǎng)度上的比值相較于可編碼蛋白的轉(zhuǎn)錄本略高(Figure 3)。對(duì)轉(zhuǎn)錄本進(jìn)行分類(Table 2)。
對(duì)非編碼轉(zhuǎn)錄本基因進(jìn)行分類,1,794個(gè)為基因間區(qū)、3,558個(gè)基因定位于可編碼轉(zhuǎn)錄本。
Figure 3.可編碼和非編碼轉(zhuǎn)錄本比較
Table 2. 分類非編碼轉(zhuǎn)錄本(U:上游;D:下游;E:外顯子;I:內(nèi)含子)
2.5 旁系同源基因分析
選擇10個(gè)主要組織相容性復(fù)合體(MHC)旁系同源基因,這些基因都被注釋在1.2-Mbp的12號(hào)染色體上(Figure 4)。結(jié)果顯示除了HLA-A之外,與參考基因組注釋相比,PacBio轉(zhuǎn)錄本的所有基因結(jié)構(gòu)都得到很好得恢復(fù)。 此外,PacBio數(shù)據(jù)還支持很多尚未注釋的轉(zhuǎn)錄本。所有的這些同源基因由于其轉(zhuǎn)錄本序列非常相似,很難通過二代組裝的方式都還原,而三代測(cè)序方式能夠很好地鑒定出旁系同源基因。
Figure 4.基因通過PacBio所測(cè)轉(zhuǎn)錄本和組裝得到的轉(zhuǎn)錄本還原10個(gè)MHC基因。染色體定位、命名和每個(gè)基因的Ensembl編號(hào)(在左側(cè))。
如圖所示:從上到下排列依次為,Ensembl中的參考轉(zhuǎn)錄本(黑色),外顯子-內(nèi)含子結(jié)構(gòu)通過一個(gè)個(gè)方框分開;PacBio transcripts(紅色);Cufflinks(綠色)和Trinity(褐色)為組裝的轉(zhuǎn)錄本。
3、總結(jié)
二代測(cè)序由于短read組裝的困難,獲得全長(zhǎng)轉(zhuǎn)錄本仍然是一個(gè)巨大的挑戰(zhàn)。在本研究中采用PacBio單分子長(zhǎng)讀長(zhǎng)測(cè)序技術(shù),用于繪制兔的轉(zhuǎn)錄本圖譜。結(jié)果提供了一整套全面的轉(zhuǎn)錄本參考數(shù)據(jù)集,從而有助于改進(jìn)兔基因組的注釋。
參考文獻(xiàn)
Chen S Y, Deng F, Jia X, et al. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing[J]. Scientific Reports, 2017, 7(1):7648.