

圖1 進化樹的結(jié)構(gòu)示意圖
根據(jù)是否指定了根節(jié)點,系統(tǒng)進化樹可以分為有根樹和無根樹。
有根樹指定了根節(jié)點,樹中可以看出各個節(jié)點的距離和祖先節(jié)點以后各個分枝分化的先后關(guān)系,因此可以用于分化時間的推斷;
無根樹沒有指定祖先節(jié)點,只能看出各個節(jié)點的拓撲結(jié)構(gòu)和相對距離。
無根樹和有根樹圖示如圖2。圖2左邊的進化樹只看到了材料的聚類關(guān)系和相對距離的遠近,無法判斷哪個分枝屬于較為古老的分枝,哪個分枝為比較年輕的分枝;而圖2右邊的進化樹加了外群,并且把外群指定為根,所以從圖中除了可以看到材料的相對距離以外,還可以可以看到各個分枝材料的分化順序。有根樹根的選擇應有所講究,一般選擇所研究的材料(根以下的全部材料)的最近的共同近緣種作為外群。
圖2 無根樹和有根樹[1,2]
隨著測序成本的下降,簡化測序和全基因組重測序在遺傳進化中的應用變得越來越廣泛,對研究群體進行簡化測序或者全基因組重測序獲得的用于分析的標記通常為SNP標記,有許多研究人員獲得SNP標記后,往往不知道如何利用SNP標記進行進化樹的構(gòu)建,腦子往往一直停留在序列比對–修改–構(gòu)建進化樹的階段,其實基于SNP進行進化樹的構(gòu)建的過程相當簡單,每個樣本的每個位點連起來就是一條序列,因為每個樣本的SNP數(shù)目相同,所以比對這一步就可以直接省去了。
下面小編就從VCF開始,告訴大家如何用比較流行的MEGA軟件進行系統(tǒng)進化樹構(gòu)建,我們只需要準備兩個軟件:TASSEL(https://bitbucket.org/tasseladmin/tassel-5-standalone/downloads/?tab=tags)和MEGA7(http://www.megasoftware.net/)即可完成進化樹構(gòu)建的全部操作。
VCF轉(zhuǎn)MEGA格式。用TASSEL打開VCF文件,另存為Phylip格式(Save As — ?Phylip(Interleaved)),如圖3,然后用MEGA7把Phylip文件轉(zhuǎn)換成MEGA格式(File — Convert File Format to MEGA — 選擇剛才轉(zhuǎn)出的Phylip文件按提示操作存成.meg文件),轉(zhuǎn)出的格式如圖4,前兩行為文件頭信息,無實際意義,但是必有。“#33-16”表示樣本編號,與fasta文件的格式不同,mega格式樣本的起始不是“>”而是“#”,接下來便是該樣本的SNP連接成的序列信息。
圖3 使用TASSEL把VCF轉(zhuǎn)為Phylip(Interleaved)格式
圖4 MEGA文件格式
系統(tǒng)進化樹構(gòu)建步驟:
1、mega文件導入:
File — Open A File/Session — 選擇要導入的文件,選擇數(shù)據(jù)類型(如果是SNP即為Nuceotide Sequences),提示Protein-coding nucleotide sequence data時,選擇No,即不把DNA序列翻譯成蛋白序列構(gòu)建進化樹,如圖5。
圖5 meg文件導入
2、系統(tǒng)進化樹的構(gòu)建
選Phylogeny選項卡,在可選的方法中選擇一種方法進行系統(tǒng)進化樹的構(gòu)建,種內(nèi)材料一般選擇NJ法即可,屬內(nèi)種間或?qū)僖陨喜牧峡梢杂肕L(maximum likelihood tree)法(ML法計算之前,可進行模型的選擇:Models — Find Best DNA/Protein Models,使用選出的模型進行ML樹的構(gòu)建),下面以NJ法為例進行說明。
參數(shù)設(shè)置,主要填寫B(tài)ootstrap值,一般選擇500或1000次;Model一般用Kimura 2-parameter Model(K2),如果K2模型運行不了,可以換成p-distance模型;Gaps/Missing Data Treatment選擇Partial deletion或者pairwise deletion,選擇complete deletion時帶有缺失值的標記都會被刪除,所以必須謹慎;Site Coverage Cutoff與我們常說的完整度相同,一般填寫成我們過濾標記時使用的完整度,上述參數(shù)設(shè)置完成后,點擊compute即可。(見圖6)
圖6 參數(shù)設(shè)置
進化樹的著色
用MEGA完成進化樹的構(gòu)建后,可以將結(jié)果保存為nwk格式(File — Export Current Tree(Newick)),保存original樹(推薦)時,既輸出枝長,又輸出bootstrap值,而bootstrap consensus tree則只能輸出bootstrap值。
獲得nwk格式的進化樹后,需要對其進行展示,以便從直觀上判斷材料間的聚類關(guān)系,界面版的MEGA自帶簡單的展示功能,可以對進化樹進行展示,但其功能較為簡單,無法滿足著色、添加額外信息等較為個性化的要求。從功能的豐富度來說,iTOL(https://itol.embl.de/)、EvolView(http://www.evolgenius.info/evolview/)、ggtree(https://github.com/GuangchuangYu/ggtree)應當是功能較為齊全的軟件,其中,ggtree是R軟件包,可以在本地操作,但需要編寫代碼,使用起來并不十分方便。三款軟件中,從操作的簡易度,效果的美觀程度來看,iTOL都是最佳的選擇,下面將以iTOL為例子,說明對進化樹結(jié)果的展示方法。
1、打開iTOL主頁以后,選擇上端的Upload選項,出現(xiàn)輸入界面后,可以在Tree text框中粘貼nwk中的內(nèi)容,也可以通過【選擇文件】選項選擇需要展示的進化樹,之后點擊Upload即可。
圖7 iTOL上傳文件
2、進化樹著色,按照iTOL的要求,填寫一個顏色配置文件,填寫方法如該鏈接的說明https://itol.embl.de/help/colors_styles_template.txt,給末端分枝著色的配置文件填寫如下圖,[2,branch,#984EA3,normal,1]中2為樣本ID,branch表示給樹枝上色,#984EA3為16進制顏色代碼,normal表示線條的樣式為正常的實線,1表示枝條的大小為1,該文件必須以.txt結(jié)尾,填寫完成后,將其拖入進化樹的界面即可。
圖8 分枝著色配置文件
3、系統(tǒng)進化樹的調(diào)整,導入進化樹后,右上角會出現(xiàn)一個control面板,該面板包含【Basic】、【Advanced】、【Datasets】、【Export】三個標簽項。常進行進化樹展示的朋友對【Basic】、【Advanced】和【Export】三個標簽項的內(nèi)容和操作應當熟練掌握。
4、分枝顏色的統(tǒng)一。上面的著色例子只對末端分枝進行了著色,有時候,我們需要對某個分枝的樣本進行顏色的統(tǒng)一,可以選中該分枝并點擊鼠標,在彈出的下拉框中選擇color — set clade color — 選擇想用的顏色或填入對應的顏色代碼即可。
圖9 分枝統(tǒng)一著色
5、樹根的指定。選擇需要指定為根的枝點,在彈出的下拉框中選擇Tree structure — Reroot the tree here即可。
圖10 指定樹根
6、編輯確定后,點擊右上邊的Save all changes即保存了當前的編輯,編輯完成并保存后,選擇export選項卡,選擇輸出文件的格式,一般選擇svg/pdf等矢量圖格式,Export area務必選擇Full image。
圖11 保存編輯與輸出
當需要輸出帶枝長的進化樹時,應當將樹圖拖動到與標尺靠近的位置,避免輸出的圖像中樹圖與標尺距離過大。
圖12 拖動進化樹使其靠近Tree Scale
至此,基于SNP構(gòu)建并編輯進化樹的工作就算基本完成了,如果還想要各種比較炫的效果,可以參照iTOL的幫助文檔進行操作,包你能夠獲得一棵華麗麗的進化樹。

1.Cheng F, Sun R, Hou X, et al. Subgenome parallel selection is associated with morphotype diversification and convergent crop domestication in Brassica rapa and Brassica oleracea[J]. Nature genetics, 2016, 48(10): 1218.
2.Zhou Z, Jiang Y, Wang Z, et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean[J]. Nature biotechnology, 2015, 33(4): 408.

關(guān)注百邁客云
未經(jīng)許可嚴禁轉(zhuǎn)載,圖片來自網(wǎng)絡,侵刪