BLAST+

 
2018 年 5 月 20 日 改訂
井上 潤

BLAST+ は,類似配列検索プログラム集です.従来の local BLAST (legacy blast と呼ばれる) を発展させたものです.Legacy blast はメンテナンスを行なっていないので,BLAST+ を用いた方が良いです.マニュアルはこちらです.

まずは,統合TV をご覧下さい.legacy blast と blast+ 間のオプション表があります.これまで local Blast (legacy blast)を使っていた方は,legacy blast と blast+ の対応表が役に立ちます.

ここにのせた操作方法の一部は古い可能性があります [2013 年 7 月].


ダウンロード
こちらのページからダウンロードできるはずです.しかし,今試したらブラウザを用いたダウンロードはうまく行きませんでした (2013 年 7 月 10 日) .かわりに以下の手順で terminal を使ってダウンロードしました.家の ADSL では 5 分位かかりました (272.5MB).[2013 年 7 月]


[jun-inoue:inoue]$ ftp ftp.ncbi.nlm.nih.gov
Connected to ftp.wip.ncbi.nlm.nih.gov.
220-
Warning Notice!

You are accessing a U.S. Government information system which includes this
....
KERBEROS_V4 rejected as an authentication type
Name (ftp.ncbi.nlm.nih.gov:jun-inoue): anonymous
331 Anonymous login ok, send your complete email address as your password
Password:[email address でも良いですが,単にリターンでも大丈夫です]
230 Anonymous access granted, restrictions apply
....
226 Transfer complete
ftp> cd blast
250 CWD command successful
ftp> ls
227 Entering Passive Mode (130,14,250,12,196,27).
150 Opening ASCII mode data connection for file list
-r--r--r-- 1 ftp anonymous 20087 May 10 2004 blastftp.txt
dr-xr-xr-x 3 ftp anonymous 32768 Jul 9 01:10 db
dr-xr-xr-x 5 ftp anonymous 4096 Feb 27 13:56 demo
dr-xr-xr-x 6 ftp anonymous 4096 Apr 19 18:49 documents
dr-xr-xr-x 10 ftp anonymous 4096 Sep 14 2012 executables
dr-xr-xr-x 2 ftp anonymous 4096 Sep 11 2012 matrices
dr-xr-xr-x 7 ftp anonymous 4096 May 9 12:06 temp
dr-xr-xr-x 2 ftp anonymous 4096 Oct 7 2011 web_services
dr-xr-xr-x 2 ftp anonymous 4096 May 24 2012 windowmasker_files
226 Transfer complete
ftp> cd executables
250 CWD command successful
ftp> cd blast+
250 CWD command successful
ftp> cd LATEST
250 CWD command successful
ftp> get ncbi-blast-2.2.28+-universal-macosx.tar.gz
local: ncbi-blast-2.2.28+-universal-macosx.tar.gz remote: ncbi-blast-2.2.28+-universal-macosx.tar.gz
227 Entering Passive Mode (130,14,250,12,197,60).
150 Opening BINARY mode data connection for ncbi-blast-2.2.28+-universal-macosx.tar.gz (272477554 bytes)
226 Transfer complete
272477554 bytes received in 42 seconds (6.3e+03 Kbytes/s)
ftp> quit


インストール

インストールは単純で,ただダウンロードして得られた .pkg をダブルクリックするだけです.すでにコンパイルされたファイルが ncbi-blast-x.x.x+/bin ディレクトリに入っています (2018 年 3 月).
 ダウンロードファイルに .pkg がない場合もあるようです.この場合は,おそらく bin ディレクトリにコンパイル済みの各種プログラムが入っています.これをコピー&ペースとして使ってください (2015 年 1 月).


余談ですが,

which makeblastdb

と入力すると,インストールされたプログラムの場所がわかります.

cd /usr/local/ncbi/blast/bin

によって,/usr/local/ncbi/blast/bin に入れます.

open /usr/local/ncbi/blast/bin

によって,/usr/local/ncbi/blast/bin がウィンドウとして開きます.


データベースの作成,blastp 検索,配列の取得

blastPlusExample.tar.gz 使って説明します.Quick start を参照しました (2018 年 3 月).

以下をターミナルから入力してください.

sh 000command.sh

以下,000command.sh の解説です.
./makeblastdb -in db_prot.txt -dbtype prot -parse_seqids
prot データベースを作成します.
-parse_seqids: seq ID 検索を可能にします.

./blastp -query query_prot.txt -db db_prot.txt -num_alignments 10 -evalue 1e-12 -out out_protREC.txt

blastp 検索を行います.

./blastdbcmd -entry ENSP00000362111.4 -db db_prot.txt -dbtype prot -out out_protSEC.txt

seq ID を用いて配列を取得します.

./makeblastdb -in db_nucl.txt -dbtype nucl -parse_seqids
nucl データベースを作成します.

./blastn -query query_nucl.txt -db db_nucl.txt -num_alignments 10 -evalue 1e-12 -out out_nuclREC.txt
blastn 検索を行います.

./blastdbcmd -entry ENST00000373020.8 -db db_nucl.txt -dbtype nucl -out out_nuclSEC.txt
seq ID を用いて配列を取得します.


*makeblastdb で作成されたデータベースは,legacy Blast (blastall) でも使うことができました.また,逆も可能で,formatdb (legacy Blast) で作成されたデータベースを blastp (blast+) で使えました.しかし,一応データベース化はやり直しています.


Blast+ による遺伝子の開始/終止点検索

ファスタ形式のゲノムファイルを自動的にデータベース化し,BLAST+ によってクエリ配列を検索するシステムです.以下のような出力が得られます [2011 年 3 月].

[inouejun:motifFinderPlus_fol]$ motifFinderPlus.pl genome.fas query.fas

###### makeblastdb starts ######

Building a new DB, current time: 03/01/2011 14:14:16
New DB name: genome.fas
New DB title: genome.fas
Sequence type: Nucleotide
Keep Linkouts: T
Keep MBits: T
Maximum file size: 1073741824B
Adding sequences from FASTA; added 1 sequences in 0.00135994 seconds.

###### blastn starts ######

###### address of seq will be picked up from outputfile ######

Database: genome.fas
1 sequences; 15,873 total letters

Query= COI 5328..6875
Score = 2859 bits (1548), Expect = 0.0
Identities = 1548/1548 (100%), Gaps = 0/1548 (0%)

Query= COIII 8627..9410
Score = 1448 bits (784), Expect = 0.0
Identities = 784/784 (100%), Gaps = 0/784 (0%)

motifFinderPlus_fol.tar.gz