RefSeq

2018 年 10 月 23 日 改訂
井上 潤

RefSeq は,Reference Sequenceの略で、配列解析に "reference"(リファレンス)となるべき配列データベースのことです.NCBI のスタッフが,最も代表としてふさわしい (参照の基準となる) 遺伝子配列をGenBank などのデータベースから目で見て選んで,RefSeq データベースを作成しています (統合テレビより).

RefSeq と GenBank の違い
RefSeq と GenBank の違いについては,こちらをご覧ください.重要な部分を抜粋します.

GenBank
RefSeq

研究者自身が投稿
NCBI が既存のデータから作成
同じ遺伝視座から複数のレコードがある
主な生物から一つのレコードに限られている
あらゆる生物 (250,000 種)
モデル生物 (4000 種)

  • In some cases, creation of a RefSeq record involves no more than selecting a single good example from GenBank and making a copy in RefSeq, which credits the GenBank record. In other cases, NCBI in-house staff generates and annotates the records based on the existing primary data, sometimes by combining parts of several GenBank records.

  • RefSeq records appear in a similar format as the GenBank records from which they are derived. However, they can be distinguished from GenBank records by their accession prefix, which includes an underscore, and a notation in the “comment” field that indicates the RefSeq status.

種ごとのゲノムデータをダウンロードする

ターミナル:
以下のようにブラウザを用いてダウンロードする方が速度は早いですが,ターミナルから ftp コマンドを用いてダウンロードもできます.ターミナルから ftp で入ると,60秒の間に何も操作がないと,自動的に接続が切れてしまいます.

junINOUEpro@inouejun-no-MacBook-Pro|~
$ ftp
ftp> open ftp.ncbi.nlm.nih.gov
Connected to ftp.wip.ncbi.nlm.nih.gov.
220-
This warning banner provides privacy and security notices consistent with
....
220 FTP Server ready.
Name (ftp.ncbi.nlm.nih.gov:junINOUEpro): anonymous
331 Anonymous login ok, send your complete email address as your password
Password: [入力せずにリターン]
230 Anonymous access granted, restrictions apply
Remote system type is UNIX.
Using binary mode to transfer files.
ftp> ls
229 Entering Extended Passive Mode (|||50471|)
150 Opening BINARY mode data connection for file list
dr-xr-xr-x 4 ftp anonymous 4096 Oct 28 02:48 1000genomes
-r--r--r-- 1 ftp anonymous 10738466816 Mar 7 2018 10GB
...
dr-xr-xr-x 13 ftp anonymous 253952 Oct 28 02:48 genbank
dr-xr-xr-x 6 ftp anonymous 4096 Feb 28 2018 gene
dr-xr-xr-x 506 ftp anonymous 40960 Oct 28 02:48 genomes
...
dr-xr-xr-x 19 ftp anonymous 4096 Sep 17 19:31 refseq
dr-...
ftp>
....
ftp> pwd
Remote directory: /genomes/all/GCF/000/003/605/GCF_000003605.2_Skow_1.1
ftp> history
0 open ftp.ncbi.nlm.nih.gov
0 cd genomes
0 cd refseq
0 cd invertebrate
0 cd Saccoglossus_kowalevskii
0 cd representative
0 cd GCF_000003605.2_Skow_1.1
0 get GCF_000003605.2_Skow_1.1_rna.gbff.gz
ftp>

こちら「コマンドラインを用いたダウンロード」も参照してください (2018 年 9 月).


ブラウザ:
ftp によって,ファスタファイルがダウンロードできます.種ごとの Refseq ゲノムデータは脊椎動物 7 種しかないみたいです.

他の種のゲノムデータは,以下に示すように,genome ディレクトリから集めます.Safari だと「上位のディレクトリへ移動」がでないので,Firefox で操作しました.




リンク集
RefSeq

NCBI のサイト.

FTP site.

BioPerl の駄文

とても便利そうな Perl script

遺伝子の RefSeqID を調べる

統合テレビがとてもわかりやすい解説をしています.

ヒトゲノム計画と RefSeq

RefSeq の存在意義について.


RefSeq を Local Blast で解析する
They have automated calculation of homologs in HomoloGene:

ftp://ftp.ncbi.nih.gov/pub/HomoloGene

If you want to run local blast, I would suggest the refseq_rna database here:

ftp://ftp.ncbi.nlm.nih.gov/blast/db/

These are pre-formatted for blast. That database contains more than mammals. You can limit your local search of that database to mammals by supplying a text file containing gi list along with the "-l " command line option. Make that gi list in the Entrez Nucleotide database by searching with this query:

mammals[orgn] AND refseq[filter] AND mrna[filter]

Once retrieved on the web page, change Display to "GI List" and send to file.
Get blast here:

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST

More documentation on setting up and using blast (among other things) is here:

http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/