TransDecoder

2017 年 7 月 13 日 改訂
井上 潤

TransDecoder は,トランスクリプトームの生データ DNA 配列から,1st codon position を見つけてアミノ酸に翻訳するソフトウェアです.アミノ酸配列と対応する cDNA 配列が得られます.
 次世代シーケンサーで得られたトランスクリプトーム・ データをアセンブルして得られた多数の配列は,翻訳される方向や 1st codon poistion がわからないです.これを解決してくれるのが TransDecoder です.
 翻訳不能とみなされた配列は除去されるので,得られるレコード数は少なくなります.Perl スクリプトで書かれているので,コンパイル不要です.


ダウンロード



例題

Oryzias melastigmaTSA データを用いて解析します.TSA (transcriptome shotgun assembly) については,こちらをご覧ください.

ダウンロードして得られた GBFV01.1.fsa_nt ファイルを TransDecoder-TransDecoder-v5.3.0 ディレクトリにコピーします.その後ターミナルから TransDecoder-TransDecoder-v5.3.0 ディレクトリに入り,

./TransDecoder.LongOrfs -t GBFV01.1.fsa_nt

と入力してください.解析は数分で終了します.アウトファイルとして,GBKV01.1.fsa_nt.transdecoder_dir ディレクトリに翻訳済みのアミノ酸配列 (longest_orfs.pep) と,これに対応するするコーディング配列 (longest_orfs.cds) が出力されます.

BLAST+ で類似配列を収集する

ブラスト検索によって,あるアミノ酸配列に類似した配列のセット (アミノ酸と cDNA 配列) を収集します.GBFV01.1.fsa_nt.transdecoder_dir ディレクトリで以下の操作をターミナルで行います.

データベース化:

makeblastdb -in longest_orfs.pep -dbtype prot -parse_seqids
makeblastdb -in longest_orfs.cds -dbtype nucl -parse_seqids

Blast検索:

アミノ酸配列データベースを検索.

blastp -query query.txt -db longest_orfs.pep -num_alignments 10 -evalue 1e-12 -out 010_out.txt

Blast hit した配列の収集:

アミノ酸配列と共通した ID を使って,cDNA 配列を取得.

blastdbcmd -db longest_orfs.cds -dbtype nucl -entry_batch queryIDs.txt -out 020_out.txt


トランスクリプトームデータ解析シリーズ

次回は「5. ORTHOSCOPE によるオーソログ推定」 です.
1. SRA データのダウンロードと変換
2. FastQC による fastq データの検証
2.5
3. Trinity によるアッセンブル
4. TransDecoder による転写配列の推定.
5. ORTHOSCOPE によるオーソログ推定.

OIST 同僚の AA さんから教えていただきました.ありがとうございました.