
b)?GEO Sample (GSM) 樣本ID號
c)?GEO Series (GSE) study的ID號
d)?GEO Dataset (GDS) 數(shù)據(jù)集的ID號這些數(shù)據(jù)均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)進(jìn)行下載。

一般我們在文章中看到的都是GSE的ID,那我們?nèi)绾瓮ㄟ^GSE的ID進(jìn)行數(shù)據(jù)的下載呢,下面就讓小編手把手教您如何進(jìn)行GEO數(shù)據(jù)的下載。
咱們以下面篇文章為例:
我們在文末找到作者數(shù)據(jù)上傳地址和GSE的ID
然后在GEO官網(wǎng)輸入GSE115354,
首先我們可以看到是關(guān)于該study的描述信息,包括文章信息、測序物種、實(shí)驗(yàn)類型等等
而我們最關(guān)心的東西在頁面的下方
如果我們想下載作者標(biāo)準(zhǔn)化后的數(shù)據(jù),可以直接在這個頁面中Supplementary file中進(jìn)行下載,那如果我想下載原始數(shù)據(jù)怎么辦呢,不要著急,您慢慢往下看。
我們點(diǎn)擊頁面中Sample對應(yīng)的GSM的ID,每個樣本都對一個GSM,我們以第一個為例,點(diǎn)擊后進(jìn)入以下界面
然后點(diǎn)擊最下方SRA編號,進(jìn)入下面的頁面
這里面包含了這個樣本的基本信息,包括測序平臺、文庫類型、數(shù)據(jù)量等基本信息,然后點(diǎn)擊頁面右上方的Send to按鈕,選擇File,F(xiàn)ormat選擇RunInfo,然后點(diǎn)擊Creat file下載一個csv文件,打開文件,可以看到一個下載鏈接
點(diǎn)擊鏈接就可以直接下載數(shù)據(jù)了。
下載完成后您可能有些疑問,我們一般測序數(shù)據(jù)都輸pair-end的雙端reads,為什么我下載的是一個.sra結(jié)尾的數(shù)據(jù)呢?難道是一個單端數(shù)據(jù)嗎?這個當(dāng)然不是,SRA為了節(jié)省空間,一般上傳的數(shù)據(jù)都是.sra的壓縮文件,那我們?nèi)绾螌ra文件轉(zhuǎn)化成常用的雙端數(shù)據(jù)呢?這里就要用到SRA提供的一個工具:fastq-dump,
下載網(wǎng)址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
官方說明文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump
當(dāng)然,這個軟件需要在Linux系統(tǒng)下進(jìn)行操作,命令行如下:
fastq-dump?*.sra?--split-3
這里的–split-3會把原來雙端拆分成兩個文件,但是原來單端并不會保存成兩個文件。運(yùn)行完成后就能獲得了您想要的原始數(shù)據(jù)了。如果您還想學(xué)習(xí)更多實(shí)用的高通量測序數(shù)據(jù)挖掘和分析的知識,歡迎點(diǎn)擊下方按鈕聯(lián)系我們。
