中文名: 通過全長轉(zhuǎn)錄組對(duì)斑馬魚轉(zhuǎn)錄組進(jìn)行高分辨率注釋
英文名: High resolution annotation of zebrafish transcriptomeusing long-read sequencing
雜志:Genome Research 2018 09
影響因子:10.101
研究背景
斑馬魚是一種重要的模式生物,已被廣泛用于胚胎發(fā)育等多方面研究。斑馬魚 發(fā)育的第一階段完全由母系提供的 mRNA 和蛋白質(zhì)指導(dǎo),隨著胚胎發(fā)育的進(jìn)行,發(fā)育由母 源因子控制轉(zhuǎn)為由合子基因產(chǎn)物控制。這一過程中,母源因子逐漸清除,合子基因組激活 (ZGA)并開始轉(zhuǎn)錄。目前通過轉(zhuǎn)錄組 RNA-seq 技術(shù)對(duì)早期胚胎發(fā)生過程取得了大量的研究 成果,但是由于短讀長 RNA-seq 技術(shù)的局限性,對(duì)斑馬魚轉(zhuǎn)錄組的相關(guān)基因注釋和可變剪切 等的研究有很大的不足。而目前出現(xiàn)的長讀長的三代全長轉(zhuǎn)錄組可以通過直接讀取全長轉(zhuǎn)錄 本的序列克服這些不足,以揭示早期斑馬魚轉(zhuǎn)錄組的其他新穎性和復(fù)雜性,從一個(gè)新的角度 對(duì)斑馬魚轉(zhuǎn)錄組進(jìn)行大量擴(kuò)展研究和驗(yàn)證。
材料方法
1、實(shí)驗(yàn)材料:選擇斑馬魚受精卵,通過形態(tài)學(xué)標(biāo)準(zhǔn)進(jìn)行分期,鑒定胚胎前期(256 細(xì) 胞期)和后 ZGA 期(6hpf)。通過注射 0.2nmol 的 RNA 聚合酶抑制劑α-鵝膏毒素來處理 1 至 4 個(gè)細(xì)胞的胚胎獲得處理組。
2、轉(zhuǎn)錄組測(cè)序:未處理組的胚胎選取胚胎前期和后 ZGA 期胚胎進(jìn)行轉(zhuǎn)錄組測(cè)序,每個(gè) 時(shí)期 3 個(gè)生物學(xué)重復(fù)。
3、全長轉(zhuǎn)錄組測(cè)序:選取正常的胚胎和 RNA 聚合酶抑制劑α-鵝膏毒素處理的胚胎進(jìn) 行三代全長轉(zhuǎn)錄組測(cè)序。
研究結(jié)果
1、試驗(yàn)系統(tǒng)的設(shè)計(jì)與全長轉(zhuǎn)錄組數(shù)據(jù)概況
將雜交得到的斑馬魚胚胎通過形態(tài)學(xué)標(biāo)準(zhǔn)進(jìn)行分期,將經(jīng)過α-amanitin 處理以及未經(jīng)處 理的胚胎分別轉(zhuǎn)錄組和全長轉(zhuǎn)錄組測(cè)序。使用 Iso-Seq pipeline 將得到的長片段的全長轉(zhuǎn)錄 組數(shù)據(jù)進(jìn)行聚類和組裝得到全長轉(zhuǎn)錄本。為評(píng)估全長轉(zhuǎn)錄組數(shù)據(jù)將得到的轉(zhuǎn)錄本數(shù)據(jù)庫 通過 GMAP 與斑馬魚參考基因組(GRCz10)數(shù)據(jù)進(jìn)行比對(duì),發(fā)現(xiàn) 18,777 個(gè)轉(zhuǎn)錄本成功比對(duì),僅有 3.6%的數(shù)據(jù)無法比對(duì),而轉(zhuǎn)錄組數(shù)據(jù)中至少 20%的數(shù)據(jù)無法比對(duì)。
將全長轉(zhuǎn)錄組得到的轉(zhuǎn)錄本通過 Cuffcompare 軟件進(jìn)行注釋分析,發(fā)現(xiàn) 4767 個(gè)轉(zhuǎn)錄本 (25.4%)與注釋完全匹配;9500 個(gè)轉(zhuǎn)錄組(50.6%),可能代表新的轉(zhuǎn)錄本,其中 4205 個(gè) 轉(zhuǎn)錄本(22.4%)是新轉(zhuǎn)錄本(NTR),與參考注釋沒有重疊;5295 個(gè)轉(zhuǎn)錄本(28.2%)為先 前注釋基因的未發(fā)現(xiàn)轉(zhuǎn)錄本;2778 個(gè)轉(zhuǎn)錄本(14.8%)為連續(xù)注釋外顯子集合;1732 個(gè)轉(zhuǎn) 錄物(9.2%)被認(rèn)為來源于難以產(chǎn)生轉(zhuǎn)錄本的區(qū)域,暫時(shí)不予考慮。
2、新型轉(zhuǎn)錄區(qū)域的鑒定
為了對(duì)新發(fā)現(xiàn)的轉(zhuǎn)錄本進(jìn)行分析,文章將短讀長轉(zhuǎn)錄組中的數(shù)據(jù)比對(duì)到加入了全長轉(zhuǎn) 錄組的參考基因組數(shù)據(jù)庫,發(fā)現(xiàn)在未經(jīng)處理和α-amanitin 處理的樣品中通過全長轉(zhuǎn)錄組發(fā) 現(xiàn)的超過 2000 個(gè)主要不重疊的新轉(zhuǎn)錄本中分別有 89%和 86%有轉(zhuǎn)錄組數(shù)據(jù)支持。并且發(fā) 現(xiàn),在高表達(dá)的基因中,短讀長轉(zhuǎn)錄組數(shù)據(jù)的外顯子比對(duì)率從從 68%提高到了到 85%。通 過 CPAT 對(duì)新發(fā)現(xiàn)轉(zhuǎn)錄本進(jìn)行編碼潛能預(yù)測(cè),在 4205 個(gè)新型轉(zhuǎn)錄本中,3255 個(gè)序列具有高 編碼潛力的,使用 Pfam 的驗(yàn)證結(jié)果也基本類似。利用這些數(shù)據(jù)我們鑒定到了一個(gè) H2AFX 新 的轉(zhuǎn)錄本僅在處理后的樣本中出現(xiàn),HIST2H2BE 基因的新鑒定到的轉(zhuǎn)錄本僅在未處理的贗本中出現(xiàn)。
3.新轉(zhuǎn)錄本編碼潛能預(yù)測(cè)
通過 CPAT 對(duì)新發(fā)現(xiàn)轉(zhuǎn)錄本進(jìn)行編碼潛能預(yù)測(cè),在 4205 個(gè)新型轉(zhuǎn)錄本中,3255 個(gè)序 列具有高編碼潛力的,使用 Pfam 的驗(yàn)證結(jié)果也基本類似。利用這些數(shù)據(jù)我們鑒定到了一個(gè) H2AFX 新的轉(zhuǎn)錄本僅在處理后的樣本中出現(xiàn),HIST2H2BE 基因的新鑒定到的轉(zhuǎn)錄本僅在未處 理的贗本中出現(xiàn)。
對(duì)于非蛋白質(zhì)編碼的 NTR,通過 Rfam 數(shù)據(jù)庫進(jìn)行鑒定和注釋,鑒定了 76 個(gè)與 Rfam 數(shù) 據(jù)庫相匹配的轉(zhuǎn)錄本,發(fā)現(xiàn)了一個(gè)與 Rfam 數(shù)據(jù)庫中的 mir-548 相匹配的轉(zhuǎn)錄本,該轉(zhuǎn)錄本 在α-amanitin 處理的樣本中特異表達(dá),推測(cè)它主要存在于母源 RNA 中。
在所有新鑒定到轉(zhuǎn)錄本中,通過合格的篩選和注釋標(biāo)準(zhǔn),總共鑒定到了 2278 個(gè)新的具 有蛋白質(zhì)編碼能力的轉(zhuǎn)錄本,261 種新的非編碼的轉(zhuǎn)錄本,些新注釋的序列將有助于研究它 們?cè)?ZGA 和早期發(fā)育中的作用。
4.已注釋基因的新轉(zhuǎn)錄本分析
作者接著對(duì)全長轉(zhuǎn)錄組對(duì)已注釋基因鑒定到的未記錄的轉(zhuǎn)錄本的可變剪切形式的研究。 由于斑馬魚參考基因組對(duì)可變剪切的注釋較少,文章使用短讀長的轉(zhuǎn)錄組數(shù)據(jù)對(duì)可變剪切位 點(diǎn)進(jìn)行驗(yàn)證。作者使用 STAR 軟件分析轉(zhuǎn)錄組數(shù)據(jù),預(yù)測(cè)了 3000 個(gè)可變剪切位點(diǎn),其中 99% 可以與全長轉(zhuǎn)錄本數(shù)據(jù)吻合。剪接位點(diǎn)的這種近乎完美的一致性支持證明了全長轉(zhuǎn)錄組鑒定 的外顯子 – 內(nèi)含子邊界的準(zhǔn)確性,并強(qiáng)烈支持新檢測(cè)到的可變剪接形式的有效性。通過全 長轉(zhuǎn)錄組共發(fā)現(xiàn)了 2000 種新型可變剪切類型,其中已注釋基因的新型可變剪切共 1835 中, 平均每個(gè)基因的可變剪切類型提升 50%。
5.新轉(zhuǎn)錄本的功能鑒定
通過全長轉(zhuǎn)錄組鑒定到的大量新轉(zhuǎn)錄本中包括了一種重要 miRNA- miR-430,mir-430 可能是第一個(gè)表達(dá)的合子基因,它通過對(duì)所有母源轉(zhuǎn)錄基因進(jìn)行的特異性沉默和降解將合子 基因的啟動(dòng)和母體程序的消除連接起來。在以前的研究中,對(duì)其功能研究較多,而對(duì)于 miR-430 的來源研究較少。作者鑒定到了一個(gè)新的跨越 9kb 基因組序列的四外顯子轉(zhuǎn)錄本, 該轉(zhuǎn)錄本重疊 22 個(gè) mir-430 重復(fù)序列,被稱為“mega-mir-430”。 在α-amanitin 處理中沒 有檢測(cè)到 mega-mir-430,并通過 qPCR 進(jìn)行了驗(yàn)證,推斷它來源于合子基因組。從每個(gè) mega-mir-430 轉(zhuǎn)錄本產(chǎn)生多個(gè) mir-430 的拷貝,這個(gè)發(fā)現(xiàn)解釋了合子基因激活時(shí) mir-430 高表達(dá)的原因。
小結(jié)
作者通過全長轉(zhuǎn)錄組對(duì)斑馬魚的轉(zhuǎn)錄信息進(jìn)行了更加全面和深入的分析,利用三代全 長轉(zhuǎn)錄組和二代轉(zhuǎn)錄組大大提高了斑馬魚轉(zhuǎn)錄組注釋的分辨率,同時(shí)為分析基因復(fù)雜的可變 剪切形式提供了有力的研究工具,證明了全長轉(zhuǎn)錄組對(duì)于斑馬魚合子基因激活的研究的具有 重要推動(dòng)作用。