

圖1 進(jìn)化樹的結(jié)構(gòu)示意圖
根據(jù)是否指定了根節(jié)點(diǎn),系統(tǒng)進(jìn)化樹可以分為有根樹和無根樹。
有根樹指定了根節(jié)點(diǎn),樹中可以看出各個節(jié)點(diǎn)的距離和祖先節(jié)點(diǎn)以后各個分枝分化的先后關(guān)系,因此可以用于分化時間的推斷;
無根樹沒有指定祖先節(jié)點(diǎn),只能看出各個節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和相對距離。
無根樹和有根樹圖示如圖2。圖2左邊的進(jìn)化樹只看到了材料的聚類關(guān)系和相對距離的遠(yuǎn)近,無法判斷哪個分枝屬于較為古老的分枝,哪個分枝為比較年輕的分枝;而圖2右邊的進(jìn)化樹加了外群,并且把外群指定為根,所以從圖中除了可以看到材料的相對距離以外,還可以可以看到各個分枝材料的分化順序。有根樹根的選擇應(yīng)有所講究,一般選擇所研究的材料(根以下的全部材料)的最近的共同近緣種作為外群。
圖2 無根樹和有根樹[1,2]
隨著測序成本的下降,簡化測序和全基因組重測序在遺傳進(jìn)化中的應(yīng)用變得越來越廣泛,對研究群體進(jìn)行簡化測序或者全基因組重測序獲得的用于分析的標(biāo)記通常為SNP標(biāo)記,有許多研究人員獲得SNP標(biāo)記后,往往不知道如何利用SNP標(biāo)記進(jìn)行進(jìn)化樹的構(gòu)建,腦子往往一直停留在序列比對–修改–構(gòu)建進(jìn)化樹的階段,其實(shí)基于SNP進(jìn)行進(jìn)化樹的構(gòu)建的過程相當(dāng)簡單,每個樣本的每個位點(diǎn)連起來就是一條序列,因?yàn)槊總€樣本的SNP數(shù)目相同,所以比對這一步就可以直接省去了。
下面小編就從VCF開始,告訴大家如何用比較流行的MEGA軟件進(jìn)行系統(tǒng)進(jìn)化樹構(gòu)建,我們只需要準(zhǔn)備兩個軟件:TASSEL(https://bitbucket.org/tasseladmin/tassel-5-standalone/downloads/?tab=tags)和MEGA7(http://www.megasoftware.net/)即可完成進(jìn)化樹構(gòu)建的全部操作。
VCF轉(zhuǎn)MEGA格式。用TASSEL打開VCF文件,另存為Phylip格式(Save As — ?Phylip(Interleaved)),如圖3,然后用MEGA7把Phylip文件轉(zhuǎn)換成MEGA格式(File — Convert File Format to MEGA — 選擇剛才轉(zhuǎn)出的Phylip文件按提示操作存成.meg文件),轉(zhuǎn)出的格式如圖4,前兩行為文件頭信息,無實(shí)際意義,但是必有。“#33-16”表示樣本編號,與fasta文件的格式不同,mega格式樣本的起始不是“>”而是“#”,接下來便是該樣本的SNP連接成的序列信息。
圖3 使用TASSEL把VCF轉(zhuǎn)為Phylip(Interleaved)格式
圖4 MEGA文件格式
系統(tǒng)進(jìn)化樹構(gòu)建步驟:
1、mega文件導(dǎo)入:
File — Open A File/Session — 選擇要導(dǎo)入的文件,選擇數(shù)據(jù)類型(如果是SNP即為Nuceotide Sequences),提示Protein-coding nucleotide sequence data時,選擇No,即不把DNA序列翻譯成蛋白序列構(gòu)建進(jìn)化樹,如圖5。
圖5 meg文件導(dǎo)入
2、系統(tǒng)進(jìn)化樹的構(gòu)建
選Phylogeny選項卡,在可選的方法中選擇一種方法進(jìn)行系統(tǒng)進(jìn)化樹的構(gòu)建,種內(nèi)材料一般選擇NJ法即可,屬內(nèi)種間或?qū)僖陨喜牧峡梢杂肕L(maximum likelihood tree)法(ML法計算之前,可進(jìn)行模型的選擇:Models — Find Best DNA/Protein Models,使用選出的模型進(jìn)行ML樹的構(gòu)建),下面以NJ法為例進(jìn)行說明。
參數(shù)設(shè)置,主要填寫B(tài)ootstrap值,一般選擇500或1000次;Model一般用Kimura 2-parameter Model(K2),如果K2模型運(yùn)行不了,可以換成p-distance模型;Gaps/Missing Data Treatment選擇Partial deletion或者pairwise deletion,選擇complete deletion時帶有缺失值的標(biāo)記都會被刪除,所以必須謹(jǐn)慎;Site Coverage Cutoff與我們常說的完整度相同,一般填寫成我們過濾標(biāo)記時使用的完整度,上述參數(shù)設(shè)置完成后,點(diǎn)擊compute即可。(見圖6)
圖6 參數(shù)設(shè)置
進(jìn)化樹的著色
用MEGA完成進(jìn)化樹的構(gòu)建后,可以將結(jié)果保存為nwk格式(File — Export Current Tree(Newick)),保存original樹(推薦)時,既輸出枝長,又輸出bootstrap值,而bootstrap consensus tree則只能輸出bootstrap值。
獲得nwk格式的進(jìn)化樹后,需要對其進(jìn)行展示,以便從直觀上判斷材料間的聚類關(guān)系,界面版的MEGA自帶簡單的展示功能,可以對進(jìn)化樹進(jìn)行展示,但其功能較為簡單,無法滿足著色、添加額外信息等較為個性化的要求。從功能的豐富度來說,iTOL(https://itol.embl.de/)、EvolView(http://www.evolgenius.info/evolview/)、ggtree(https://github.com/GuangchuangYu/ggtree)應(yīng)當(dāng)是功能較為齊全的軟件,其中,ggtree是R軟件包,可以在本地操作,但需要編寫代碼,使用起來并不十分方便。三款軟件中,從操作的簡易度,效果的美觀程度來看,iTOL都是最佳的選擇,下面將以iTOL為例子,說明對進(jìn)化樹結(jié)果的展示方法。
1、打開iTOL主頁以后,選擇上端的Upload選項,出現(xiàn)輸入界面后,可以在Tree text框中粘貼nwk中的內(nèi)容,也可以通過【選擇文件】選項選擇需要展示的進(jìn)化樹,之后點(diǎn)擊Upload即可。
圖7 iTOL上傳文件
2、進(jìn)化樹著色,按照iTOL的要求,填寫一個顏色配置文件,填寫方法如該鏈接的說明https://itol.embl.de/help/colors_styles_template.txt,給末端分枝著色的配置文件填寫如下圖,[2,branch,#984EA3,normal,1]中2為樣本ID,branch表示給樹枝上色,#984EA3為16進(jìn)制顏色代碼,normal表示線條的樣式為正常的實(shí)線,1表示枝條的大小為1,該文件必須以.txt結(jié)尾,填寫完成后,將其拖入進(jìn)化樹的界面即可。
圖8 分枝著色配置文件
3、系統(tǒng)進(jìn)化樹的調(diào)整,導(dǎo)入進(jìn)化樹后,右上角會出現(xiàn)一個control面板,該面板包含【Basic】、【Advanced】、【Datasets】、【Export】三個標(biāo)簽項。常進(jìn)行進(jìn)化樹展示的朋友對【Basic】、【Advanced】和【Export】三個標(biāo)簽項的內(nèi)容和操作應(yīng)當(dāng)熟練掌握。
4、分枝顏色的統(tǒng)一。上面的著色例子只對末端分枝進(jìn)行了著色,有時候,我們需要對某個分枝的樣本進(jìn)行顏色的統(tǒng)一,可以選中該分枝并點(diǎn)擊鼠標(biāo),在彈出的下拉框中選擇color — set clade color — 選擇想用的顏色或填入對應(yīng)的顏色代碼即可。
圖9 分枝統(tǒng)一著色
5、樹根的指定。選擇需要指定為根的枝點(diǎn),在彈出的下拉框中選擇Tree structure — Reroot the tree here即可。
圖10 指定樹根
6、編輯確定后,點(diǎn)擊右上邊的Save all changes即保存了當(dāng)前的編輯,編輯完成并保存后,選擇export選項卡,選擇輸出文件的格式,一般選擇svg/pdf等矢量圖格式,Export area務(wù)必選擇Full image。
圖11 保存編輯與輸出
當(dāng)需要輸出帶枝長的進(jìn)化樹時,應(yīng)當(dāng)將樹圖拖動到與標(biāo)尺靠近的位置,避免輸出的圖像中樹圖與標(biāo)尺距離過大。
圖12 拖動進(jìn)化樹使其靠近Tree Scale
至此,基于SNP構(gòu)建并編輯進(jìn)化樹的工作就算基本完成了,如果還想要各種比較炫的效果,可以參照iTOL的幫助文檔進(jìn)行操作,包你能夠獲得一棵華麗麗的進(jìn)化樹。

1.Cheng F, Sun R, Hou X, et al. Subgenome parallel selection is associated with morphotype diversification and convergent crop domestication in Brassica rapa and Brassica oleracea[J]. Nature genetics, 2016, 48(10): 1218.
2.Zhou Z, Jiang Y, Wang Z, et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean[J]. Nature biotechnology, 2015, 33(4): 408.

關(guān)注百邁客云
未經(jīng)許可嚴(yán)禁轉(zhuǎn)載,圖片來自網(wǎng)絡(luò),侵刪