fastq データの検証

 
2018 年 10 月 31 日 改訂

ここでは fastqc を用いて,fastq データの品質を検証します.ここではコマンドラインを用いた方法を解説します.スパコンで解析した場合は,結果をダウンロードしてみる必要があります.

例えば,得られたリードの長さがどのような分布になっているかチェックします.具体的には,fastqc の Example Reports > Good Illumina Data をみると,Summary に,該当項目が合格レベルであることしめすチェックが入ります (すべて合格でなくても良いらしいです).

bioinformatics を参考にしました.コマンドラインから操作する方法,および結果の解釈が丁寧に解説されています.


インストール

こちらのページにある Download Now をクリックします.Linux であれば FastQC v0.11.8 (Win/Linux zip file) をダウンロードしてください. JAVA script であるためコンパイル不要ですが (bioinformatics),以下のコマンドによって fastqc に実行権限を与える必要があります.シンボリックリンクの作成など,INSTALL.txt を参照してください.


操作方法

bioinformatics に従いました.ここでは,SRR5760179_sub1.fq という fastq ファイルを解析しています.

アウトファイルが保存される fastqc_out ディレクトリをあらかじめ作成します.

mkdir fastqc_out

fastq を走らせます.

fastqc --nogroup -o ./fastqc_out SRR5760179_sub1.fq

アウトファイルは html で出力されます.このため結果を見る場合は,スパコンの場合はローカルに fastqc_out ディレクトリをダウンロードする必要があります.

 

seqtk
練習用に 1M レコード (100 万) だけ抜き出したファイルが作りたい,という場合があると思います.そういう時は,seqtk を使うと良いです.ほぼ同じ機能をもつものに,seq kit というものもあります.

日本語の解説

実際に作成された fastq ファイルのリード数を調べる場合は,以下のコマンドです.

[cluster:Symsagittifera-roscoffensis]$
wc -l SRR5760179_sub1.fq
4000000 SRR5760179_sub1.fq

4000000 を 4 で割った数が,リード数です.



トランスクリプトームデータ解析シリーズ

次回は「3. Trinity によるアッセンブル」 のページです.断片化されたリードをアッセンブルして実際の配列を fasta ファイルとして出力します.
1. SRA データのダウンロードと変換
2. FastQC による fastq データの検証.
3. fastq データの精製
4. Trinity によるアッセンブル
5. TransDecoder による転写配列の推定
6. ORTHOSCOPE によるオーソログ推定.

このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します.