370 likes | 481 Views
分子生物関連データベース 統合検索システム. 東京大学 医科学研究所 ヒトゲノム解析センター 日本シリコングラフィックス(株) 飯坂 剛一. Genome. 簡単にいうと遺伝情報 DNAと呼ばれるヒモ状の超高分子物質で鎖状に連なった構造 アデニン(A) グアニン(G) シトシン(C) チミン(T). Genome. ヒトの体の細胞は約60兆個 脳や肝臓、皮膚など形や機能が違っても同じゲノム DNA 3つのゲノム DNA で1つアミノ酸 生体アミノ酸は約20 ゲノムはプログラム? TATA : 遺伝子の始まり ATG: 蛋白質への翻訳開始
E N D
分子生物関連データベース統合検索システム 東京大学 医科学研究所 ヒトゲノム解析センター 日本シリコングラフィックス(株) 飯坂 剛一
Genome • 簡単にいうと遺伝情報 • DNAと呼ばれるヒモ状の超高分子物質で鎖状に連なった構造 • アデニン(A) • グアニン(G) • シトシン(C) • チミン(T)
Genome • ヒトの体の細胞は約60兆個 • 脳や肝臓、皮膚など形や機能が違っても同じゲノムDNA • 3つのゲノムDNAで1つアミノ酸 • 生体アミノ酸は約20 • ゲノムはプログラム? • TATA : 遺伝子の始まり • ATG: 蛋白質への翻訳開始 • AATAAA: 遺伝子の終わり
遺伝子のおよその数 遺伝子数 4,000 8,000 15,000 40,000 100,000 DNA数 450万 1400万 8000万 6億 30億 種 大腸菌 酵母 線虫 イネ ヒト
ヒトゲノムプロジェクト • 1973: 組換えDNA実験の登場 • 1988: 米国ヒトゲノムプロジェクト発足 • 1991: 日本ヒトゲノムプロジェクト発足
ヒトゲノム解析センター(HGC)計算機関係部門の業務ヒトゲノム解析センター(HGC)計算機関係部門の業務 • ゲノム情報解析のための計算機システムの運用 • 利用者登録/質問対応/計算機のメンテナンス • 講習会/ワークショップ/チュートリアルの開催 • 利用の手引き/パンフレット等の発行 • ゲノムネットの構築とサービス運用(京大化研共同) • 最新の公的データベースを計算機上に保持 • 参照情報を元に統合化したデータベースの作成 • ホモロジー検索などの基本的検索・解析サービス • ゲノム情報解析のためのソフトウエアの開発 • 日本独自のゲノム関連データベースの構築
分子生物関連データベース 内容 すべての塩基配列 すべてのアミノ酸配列 重複を除いた塩基配列 重複を除いたアミノ酸配列 核酸塩基配列(DDBJ含む) 核酸塩基配列 タンパク質アミノ酸配列 タンパク質アミノ酸配列 タンパク質アミノ酸配列 タンパク質などの立体構造 PDBアミノ酸配列 真核生物プロモーター 転写因子 タンパク質配列モチーフ 酵素反応化合物 KEGGパスウエイマップ KEGGゲノムマップ KEGG遺伝子カタログ 遺伝病 変異タンパク質 アミノ酸指標 タンパク質関連文献 医学・生物学文献(リンク) リンク情報 作成者 (GenBank + EMBL) (SwissProt + PIR + PRF + PDBSTR) (GenBank, EMBL から作成) (SwissProt, PIR, PRF, GenPept から作成) 米国 NCBI, 国立遺伝学研究所 欧州 EBI ジュネーブ大学, EBI ジョージタウン大学 蛋白質研究奨励会 ブルックヘブン国立研究所 京都大学化学研究所 スイスがん研究所 ドイツバイオテクノロジー研究所 ジュネーブ大学 京都大学化学研究所 京都大学化学研究所 京都大学化学研究所 京都大学化学研究所 ジョンズホプキンス大学 蛋白工学研究所 京都大学化学研究所 蛋白質研究奨励会 米国国立医学図書館 京都大学化学研究所 データベース DNA Protein nr-nt nr-aa Genbank EMBL SwissProt PIR PRF PDB PDBSTR EPD TRANSFAC PROSITE LIGAND PATHWAY GENOME GENES OMIM PMD Aaindex LITDB Medline LinkDB
日本の新しいゲノムデータベース 内容 Bacillus subtilis ゲノムデータベース Escherichia coli ゲノムデータベース Synechosystis sp. ゲノムデータベース 微生物ゲノムデータベース 細胞性粘菌 cDNA データベース 線虫遺伝子発現パターンデータベース 21番染色体シーケンスマップ JSTヒトゲノムシーケンシングデータベース ヒト遺伝子発現データベース ヒト cDNA データベース p53 変異データベース シグナルパスウエイデータベース 作成者 HGC, 奈良先端大学 奈良先端大学 かずさ DNA 研究所 HGC 粘菌グループ 国立遺伝学研究所 HGC 科学技術振興事業団 大阪大学 大塚製薬, HGC HGC 九州大学 データベース BSORF E.coli Databank CyanoBase MBGD DictycDB NEXTDB CHR21 JST BodyMap GENOTK p53MDB SPAD
LOCUS HSU88725 2093 bp DNA PRI 19-MAR-1998 DEFINITION Human type 1 inositol 1,4,5-trisphosphate receptor gene, promoter region and exon 1. ACCESSION U88725 NID g1857947 KEYWORDS . SOURCE human. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2093) AUTHORS Deelman,L.E., Jonk,L.J.C. and Henning,R.H. TITLE The isolation and characterization of the promoter of the human type 1 inositol 1,4,5-trisphosphate receptor JOURNAL Gene 207 (2), 219-225 (1998) REFERENCE 2 (bases 1 to 2093) AUTHORS Deelman,L.E., Jonk,L.J. and Henning,R.H. TITLE Direct Submission JOURNAL Submitted (06-FEB-1997) Clinical Pharmacology, University of Groningen, A. Deusinglaan 1, Groningen 9713 AV, The Netherlands FEATURES Location/Qualifiers source 1..2093 /organism="Homo sapiens" /db_xref="taxon:9606" promoter 1..1948 TATA_signal 1922..1927 exon 1949..2093 /number=1 /product="type 1 inositol 1,4,5-trisphosphate receptor" BASE COUNT 504 a 517 c 554 g 512 t 6 others ORIGIN 1 atcgtgaaca caaactttgt ctatttcaag agctttgccc cttcctggac tgacattaaa 61 tgcttatctg agcaggcaaa tacagtgcac atgtttacat tggggaggta gcggagacta 121 gtagtttagg accagggttc aagactcagc tatttgtgtg actttggagg aagtaattta 181 atcgctttgt gccccccctc agttttctca taagtaaaaa tggcttaata ggatttaatt 。。。 // エントリ名による検索 (ACCESSION, ENTRY など) キーワードによる検索 タイトル (DEFINITION, TITLE など) 参考文献 (REFERENCE 内) 種・組織 (SOURCE, ORGANISM 内) 核酸・アミノ酸類似度による検索 (ORIGIN, SEQUENCE など) リンク先の検索 (データベース内外) データベースサービス
検索サービス 内容 統合データベース検索 統合データベース検索 遺伝子・ゲノム百科事典 パスウエイ検索 ホモロジー検索(nogap, fast) ホモロジー検索(gap, fast) ホモロジー検索(gap, fast) ホモロジー検索(gap, best) タンパク質モチーフ検索 利用形態 WWW, Client, E-mail WWW, Client WWW, FTP, CD WWW, E-mail WWW, E-mail ログイン WWW, E-mail ログイン WWW 作成者 京大化研 NCBI 京大化研 京大化研 NCBI NCBI W.Pearson 京大化研 京大化研, 基生研 システム DBGET/LinkDB Entrez KEGG PATHWAY BLAST 1.4 BLAST 2.0 FASTA SEQHP MOTIF 例) bget データベースエントリの取得 bfind キーワード検索 binfo データベースリリース一覧 bman データベースのマニュアル参照 blink データベースの関連エントリ検索
Search Engine/ Analyzing Tool Database データベースへのアクセス方法 • データベースと検索・解析システム • データベースの検索 • 解析システムからのデータベースの利用 • アクセス方法 • WWW • コマンド・NQS • 電子メール • FTP query user answer • Access • WWW • コマンド • 電子メール • System • server (e.g. HGC) • local (e.g. PC) • ftp install
複合計算機システム SR2201 FASTA • WWW • NQS Sun Enterprise 10000 DBGET BLAST
GenomeNet • WWW http://www.genome.ad.jp
DBGETのWWWサービス • コマンドを選択 : bfind/bget • オプションの設定 • コマンド実行 • 検索結果から関連データベースへのハイパーリンクを作成
BLASTのWWWサービス • BLASTのコマンドを選択 • オプションの設定 • 検索対象データベースを選択 • 問合わせ配列の入力 • BLASTの実行 • BLASTの検索結果をHTML化 • 関連データベースへのハイパーリンク
CGI: BLASTを呼び出す(部分) $CMD1 = "$PROGRAM $dbname input.seq $options -p$NCPUS"; open( JOBF, ">$WORK/blast.job" )|| die "Cannot create Job file"; print JOBF "#!$CPULIMIT /bin/sh\n" ; print JOBF "$LIMITCMD\n"; print JOBF "mkdir $TMPDIR/blast.job.$$\n"; print JOBF "cd $TMPDIR/blast.job.$$\n"; print JOBF "cat > input.seq <<__EOF__\n" ; print JOBF `cat $WORK/blast.input` ; print JOBF "__EOF__\n" ; print JOBF "$CMD1 | $ANCHOR | $FILTER >output 2>/dev/null\n"; print JOBF "rcp output $WWW_HOST:$WORK/blast.res\n" ; print JOBF "cd .. ; /sbin/rm -rf $TMPDIR/blast.job.$$ 2>/dev/null\n" ; close(JOBF); chmod( 0755, "$WORK/blast.job" ); system("rsh $BLAST_HOST $WORK/blast.job");
CGI処理の極意 • Formデータの処理 use CGI; $Query = new CGI; : $dbname = $Query->param(’dbname’); • 外部コマンドの実行 system $cmd; • 結果をHTML化 • 関連項目へのハイパーリンク (もし必要なら) • 「便利さ」はここで決まる
複合計算機システム SR2201 FASTA • WWW • NQS Sun Enterprise 10000 DBGET BLAST
複合計算機システム FEP 検索サーバー blue 32CPU blue1 64CPU blue2 128CPU blue3 16CPU blue4 16CPU DBサーバー
なぜバッチ処理(NQS)を使うのか • 並列化プログラムのパフォーマンスを配慮 • ジョブの管理が容易 • サービスマシンのトラブル時にバックアップマシンへの切り替えが簡単
NQS投入の例 gray{iisaka}19: blastp blastp 1.4.9MP [26-March-1996] [Build 19:24:28 Dec 12 1997] Reference: Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman (1990). Basic local alignment search tool. J. Mol. Biol. 215:403-10. test sequence file or directory: test.seq Choose sequence Library: 1. nr-aa (Rel. 98-10-18) 2. swissprot (Rel. 36.0) 3. swissprot-upd (Rel. 36.0+/10-03) 4. pir (Rel. 57.0) 5. prf (Rel. 98-09) 6. genpept (Rel. 108.0) 7. genpept-upd (Rel. 108.0+/10-18) 8. pdbstr-upd (Rel. 84.0+/08-02) Enter library filename (e.g. prot.lib), or number (e.g. 2): 4
NQS投入の例(つづき) more options? (? to see manual) [none]: output file? [test.seq.bla]: program: blastp datalib: pir options: -p8 query type: protein input file: test.seq output file: test.seq.bla OK? [yes] nqs-181 qsub: INFO Request <22740.gray>: Submitted to queue <blast> by <iisaka(5015)>.
NQS投入のスクリプト(部分) sub qsub_blast { if ($input_ftype eq 'file') { open(QSUB, "| qsub -r $progname -eo -o $output -q $Qname{$queue}") || die; print QSUB "cd $CWD; $progpath/$progname $dbname $seqfile $options\n"; close(QSUB); } elsif ($input_ftype eq 'directory') { if (! defined(@Files)) { opendir(DIR, $seqfile) || die "Can't access $seqfile\n"; @Files = sort readdir(DIR); close(DIR); } foreach $f (@Files) { next if ($f =~ /^\./); print STDERR "$seqfile/$f\n"; open(QSUB, "| qsub -r $progname -eo -o $output/$f -q $Qname{$queue}") || die; print QSUB "cd $CWD; $progpath/$progname $dbname $seqfile/$f $options\n"; close(QSUB); print STDERR "Done.\n"; } } }
NQS投入のスクリプト(ファイル時) if ($input_ftype eq 'file') { open(QSUB, "| qsub -r $progname -eo -o $output -q $Qname{$queue}") || die; print QSUB "cd $CWD; $progpath/$progname $dbname $seqfile $options\n"; close(QSUB); }
NQS投入のスクリプト(ディレクトリ時) } elsif ($input_ftype eq 'directory') { if (! defined(@Files)) { opendir(DIR, $seqfile) || die "Can't access $seqfile\n"; @Files = sort readdir(DIR); close(DIR); } foreach $f (@Files) { next if ($f =~ /^\./); print STDERR "$seqfile/$f\n"; open(QSUB, "| qsub -r $progname -eo -o $output/$f -q $Qname{$queue}") || die; print QSUB "cd $CWD; $progpath/$progname $dbname $seqfile/$f $options\n"; close(QSUB); print STDERR "Done.\n"; } }
Perlの利点 • 他のマシンでもきちんと動作する • トラブル時のバックアップが容易 • 開発期間が短い • デバッグが比較的容易
Perlの欠点 • 2G超のファイル/メモリを扱えるか? • 内部表現が32ビット • 保守が大変 • 可読性が良くない • 暗黙の規則 • 2文字の「魔法のような変数」 • いろいろな記述ができる制御 • “便利すぎて”ドキュメント化しづらい