SRA データのダウンロードと変換

 
2018 年 10 月 30 日 改訂

ここでは,NCBI が提供している SRA (Sequence Read Archive) という次世代シーケンサーの生データ集から SRA ファイルをダウンロードして,fastq ファイルに変換する処理を説明します.

例として,Symsagittifera roscoffensis (無腸類) の TSA が出ているエントリを例としています.ここでは,公開されている SRA データ解析に便利な,SRA Toolkit を使います.slurm の job script はこちらを参照してください.


データ確認
まず,NCBI で TSA のページを開き,データの内容を調べます.
https://www.ncbi.nlm.nih.gov/nuccore/1219878365
上の画面で Sequence Read Archive の右にある SRR5760179 を押すと,下の画面が現れます.
https://www.ncbi.nlm.nih.gov/sra/SRR5760179

上の画面,Run にある SRR 5760179 > Download タブを押すと,"You need SRA Toolkit to operate on SRA runs." と言われます.


ダウンロード
prefetch で,SRA データ (.sra ファイル) をダウンロードします.

prefetch --option-file list.txt --max-size 100GB

--option-file
list.txt に SRR5760179 などの ID をリストアップ.Sequence Read Archive に ID が複数ある場合は,改行で分けて ID を複数記述しても良い.

--max-size
prefetch は 20G 以上の場合は,--max-size でデータサイズの指定が必要.

ダウンロードしたファイルは,~/ncbi/public/sra/ に保存される.

[cluster:Symsagittifera-roscoffensis]$ ls ~/ncbi/public/sra/
SRR5760179.sra




ペアエンドデータのダウンロード & fastq 変換
ダウンロード & fastq 変換: fastq-dump で,SRA データをダウンロードし,その後自動的に得られた .sra 形式を fastq フォーマットに変換します.

fastq-dump SRR390728 --split-files

--split-files
SRA ファイルに入っているペアードデンド・リードを,左と右に分けます.つまり二つの fastq ファイルができることになる.シングルエンドに適用すると誤りなので注意. また,--split-file s をつけないと,ペアードエンドデータの解析にならないので,注意してください.

fastq 変換:以下のコマンドで,.sra ファイルの fastq 変換のみを行うこともできます.

fastq-dump ~/ncbi/public/sra/SRR390728.sra --split-files




インストールFastq ファイル name line の確認

一応,fastq ファイルの name line がどのようになっているかチェックします.

[cluster:Symsagittifera-roscoffensis]$ head -n1 SRR5760179_1.fastq
@SRR5760179.1 HWI-D00692:23:C6KTNANXX:8:1101:1171:2160 length=126


リンク

Plamsonntagmorgen

SRA tool kit の使い方.fastq-dump と prefetch の違いなど.

バイオインフォ道場

bioinformatics

 

トランスクリプトームデータ解析シリーズ

次回は「2. FastQCによる fastq データの検証」 のページです.作成した fastq ファイルの品質チェックを行います.
1. SRA データのダウンロードと変換.
2. fastq データの検証
3. fastq データの精製
4. Trinity によるアッセンブル
5. 転写配列の推定
6. ORTHOSCOPE によるオーソログ推定.

このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します.