轉(zhuǎn)錄組測(cè)序的研究對(duì)象為特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有mRNA。針對(duì)無(wú)參考基因組的物種,將小片段拼接出unigene,構(gòu)建參考序列,以便后續(xù)分析,是研究無(wú)參物種分子機(jī)制與調(diào)控網(wǎng)絡(luò)的有效手段。目前已廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷、藥物研發(fā)和分子育種等領(lǐng)域。
為確保Reads有足夠高的質(zhì)量,將下機(jī)原始測(cè)序數(shù)據(jù)(raw reads)去掉含有帶接頭的、低質(zhì)量的reads,得到clean reads,保證后續(xù)分析的準(zhǔn)確性。測(cè)序因受測(cè)序儀本身、測(cè)序試劑、樣品等因素影響,存在一定的錯(cuò)誤率。堿基測(cè)序錯(cuò)誤率分布圖可以反映測(cè)序數(shù)據(jù)的質(zhì)量。
過濾得到的高質(zhì)量clean reads需通過Trinity軟件進(jìn)行組裝得到轉(zhuǎn)錄本序列。轉(zhuǎn)錄本測(cè)序深度除了受測(cè)序數(shù)據(jù)量等影響,還與該轉(zhuǎn)錄本的表達(dá)豐度有關(guān)。為了使各樣品中表達(dá)豐度較低的轉(zhuǎn)錄本組裝得更完整,對(duì)于同物種的測(cè)序樣品推薦合并組裝可以間接增加測(cè)序深度,從而使轉(zhuǎn)錄結(jié)果更完整,同時(shí)也有利于后續(xù)的數(shù)據(jù)分析;而對(duì)于不同物種的樣品,由于基因組間存在差異,推薦采用分別組裝或分開分析。
利用轉(zhuǎn)錄組數(shù)據(jù)檢測(cè)基因表達(dá)具有較高的靈敏度。通過FPKM密度圖和箱線圖不僅可以反映單個(gè)樣品基因表達(dá)水平分布和離散程度,還可以直觀的比較不同樣品的整體基因表達(dá)水平差異。
生物學(xué)重復(fù)的相關(guān)性不僅可以檢驗(yàn)生物學(xué)實(shí)驗(yàn)操作的可重復(fù)性,還可以評(píng)估差異表達(dá)基因的可靠性和輔助異常樣品的篩查。
差異表達(dá)基因以火山圖、MA圖、韋恩圖、聚類熱圖、蛋白互作圖等形式呈現(xiàn),通過火山圖(Volcano Plot)可以快速地查看基因在兩個(gè)(組)樣品中表達(dá)水平的差異,以及差異的統(tǒng)計(jì)學(xué)顯著性。對(duì)于有生物學(xué)重復(fù)的樣本,我們采用DEseq進(jìn)行樣品組間的差異表達(dá)分析,獲得兩個(gè)生物學(xué)條件之間的差異表達(dá)基因集;對(duì)于沒有生物學(xué)重復(fù)的樣本,使用EBseq進(jìn)行差異分析。篩選差異基因標(biāo)準(zhǔn)一般為:Fold Change≥2,F(xiàn)DR<0.01。
差異表達(dá)基因GO注釋分類統(tǒng)計(jì)圖,直觀的反映出在生物過程(biological process)、細(xì)胞組分(cellular component)
和分子功能(molecular function),所有基因和差異基因注釋GO term的個(gè)數(shù)分布??缮钊胪诰虿町惢虻墓δ芗八诘男盘?hào)通路,篩選關(guān)注差異基因注釋情況。
STRING收錄多個(gè)物種預(yù)測(cè)的和實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)互作的數(shù)據(jù)庫(kù),包括直接的物理互作和間接的功能相關(guān)。結(jié)合差異表達(dá)分析結(jié)果和數(shù)據(jù)庫(kù)收錄的互作關(guān)系對(duì),構(gòu)建差異表達(dá)基因互作網(wǎng)絡(luò)。
答:可從所有基因,差異基因及SNP三個(gè)方面進(jìn)行數(shù)據(jù)挖掘。所有基因可通過功能注釋信息,基因ID,基因名稱,序列信息幾個(gè)方面進(jìn)行挖掘,同時(shí)還可以做表達(dá)基因集維恩圖,WGCNA等分析。差異基因則可通過維恩圖分析不同處理批次幾個(gè)差異組合共同的差異基因;通常表達(dá)量變化趨勢(shì)一致的基因,可能會(huì)有相似的功能,故可通過基因共表達(dá)趨勢(shì)分析來(lái)進(jìn)行差異基因的深入挖掘。SNP則可通過PCA分析,系統(tǒng)進(jìn)化樹,樣品間差異SNP篩選及目標(biāo)區(qū)域SNP查詢等進(jìn)行挖掘。以上這些分析均可在我公司云平臺(tái)免費(fèi)完成。
答:?K number Count指相關(guān)的酶的數(shù)目,比如8(6)代表8個(gè)基因注釋到這個(gè)通路,涉及到這個(gè)通路的6個(gè)酶,某兩個(gè)基因(或多個(gè))涉及到同一個(gè)酶。
答:Go富集我們使用的是Blast2GO R包;KEGG是我們根據(jù)fisher檢驗(yàn)算法自己編寫的程序。
KS<0.05,這個(gè)值和p-value的意義相同,是TopGO軟件包中的一個(gè)檢驗(yàn)方法。
Q-value<0.01,這個(gè)值是對(duì)p-value值的一個(gè)校正,和FDR概念相似,是fisher檢驗(yàn)中的一個(gè)檢驗(yàn)方法。
測(cè)序文章一般不用這兩個(gè)指標(biāo),涉及到算法的文獻(xiàn)中才有。
答:(1)用實(shí)驗(yàn)的方法: 針對(duì)5’端和3’端的序列來(lái)設(shè)計(jì)引物,通過PCR實(shí)驗(yàn)進(jìn)行延長(zhǎng)和擴(kuò)增.
(2)生信辦法: 將該基因與它的近源物種做同源,如果能找到同源基因,則將該區(qū)域的所有read比對(duì)到同源基因上,進(jìn)而來(lái)確定中間部分的序列。