91肥熟国产老肥熟女,亚洲天堂在线观看视频,国产真实乱婬A片三区高清蜜臀,国产做受91 一片二
 分類: 醫(yī)學(xué)研究
對于從事生物生信分析的人員來說,NCBI的重要性不必多說,而GEO(Gene Expression Omnibus database)是NCBI負(fù)責(zé)維護(hù)的一個數(shù)據(jù)庫,收集了大量表達(dá)譜、甲基化、LncRNA、miRNA、拷貝數(shù)變異(CNV)等各種芯片數(shù)據(jù),并且還存儲了一些二代數(shù)據(jù)和其他高通量測序數(shù)據(jù)。相信【實(shí)用帖】手把手教你如何上傳GEO數(shù)據(jù)庫已經(jīng)為您解決數(shù)據(jù)上傳的問題,那么今天小編繼續(xù)帶您玩轉(zhuǎn)GEO數(shù)據(jù)下載,充分挖掘GEO數(shù)據(jù)庫的價值,讓GEO數(shù)據(jù)庫成為您的研究數(shù)據(jù)后花園。

GEO數(shù)據(jù)庫可以分為以下類型:a)?GEO Platform (GPL) 芯片平臺
b)?GEO Sample (GSM) 樣本ID號
c)?GEO Series (GSE) study的ID號
d)?GEO Dataset (GDS) 數(shù)據(jù)集的ID號這些數(shù)據(jù)均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)進(jìn)行下載。

一般我們在文章中看到的都是GSE的ID,那我們?nèi)绾瓮ㄟ^GSE的ID進(jìn)行數(shù)據(jù)的下載呢,下面就讓小編手把手教您如何進(jìn)行GEO數(shù)據(jù)的下載。

咱們以下面篇文章為例:

我們在文末找到作者數(shù)據(jù)上傳地址和GSE的ID

然后在GEO官網(wǎng)輸入GSE115354,

首先我們可以看到是關(guān)于該study的描述信息,包括文章信息、測序物種、實(shí)驗(yàn)類型等等

而我們最關(guān)心的東西在頁面的下方

如果我們想下載作者標(biāo)準(zhǔn)化后的數(shù)據(jù),可以直接在這個頁面中Supplementary file中進(jìn)行下載,那如果我想下載原始數(shù)據(jù)怎么辦呢,不要著急,您慢慢往下看。

我們點(diǎn)擊頁面中Sample對應(yīng)的GSM的ID,每個樣本都對一個GSM,我們以第一個為例,點(diǎn)擊后進(jìn)入以下界面

然后點(diǎn)擊最下方SRA編號,進(jìn)入下面的頁面這里面包含了這個樣本的基本信息,包括測序平臺、文庫類型、數(shù)據(jù)量等基本信息,然后點(diǎn)擊頁面右上方的Send to按鈕,選擇File,F(xiàn)ormat選擇RunInfo,然后點(diǎn)擊Creat file下載一個csv文件,打開文件,可以看到一個下載鏈接

點(diǎn)擊鏈接就可以直接下載數(shù)據(jù)了。

下載完成后您可能有些疑問,我們一般測序數(shù)據(jù)都輸pair-end的雙端reads,為什么我下載的是一個.sra結(jié)尾的數(shù)據(jù)呢?難道是一個單端數(shù)據(jù)嗎?這個當(dāng)然不是,SRA為了節(jié)省空間,一般上傳的數(shù)據(jù)都是.sra的壓縮文件,那我們?nèi)绾螌ra文件轉(zhuǎn)化成常用的雙端數(shù)據(jù)呢?這里就要用到SRA提供的一個工具:fastq-dump,

下載網(wǎng)址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

官方說明文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump

當(dāng)然,這個軟件需要在Linux系統(tǒng)下進(jìn)行操作,命令行如下:

fastq-dump?*.sra?--split-3

這里的–split-3會把原來雙端拆分成兩個文件,但是原來單端并不會保存成兩個文件。運(yùn)行完成后就能獲得了您想要的原始數(shù)據(jù)了。如果您還想學(xué)習(xí)更多實(shí)用的高通量測序數(shù)據(jù)挖掘和分析的知識,歡迎點(diǎn)擊下方按鈕聯(lián)系我們。

立即咨詢
最近文章