低分子化合物の結合情報を含む高精度タンパク質立体構造予測データベースを全世界に公開－創薬研究の効率化や新規機能性生体物質の創製に向けて－

低分子化合物の結合情報を含む高精度タンパク質立体構造予測データベースを全世界に公開－創薬研究の効率化や新規機能性生体物質の創製に向けて－低分子化合物の結合情報を含む高精度タンパク質立体構造予測データベースを全世界に公開－創薬研究の効率化や新規機能性生体物質の創製に向けて－ 2006.9.28　2:00PM 独立行政法人　理化学研究所ゲノム科学総合研究センタータンパク質構造・機能研究グループ

タンパク質とは アミノ酸（20種類）がつながり、3次元的な「立体構造」（形）をとったものアミノ酸配列 Glu ＲＮＡ X線結晶解析 NMRなどから得られた立体構造情報ＤＮＡ遺伝子配列 1

ホモロジーモデリングとは 立体構造未知のタンパク質（目的タンパク質）の立体構造を、類似のアミノ酸配列をもつ立体構造既知のタンパク質（参照タンパク質）を参照して予測する方法 X線結晶解析 NMRなどから得られた立体構造情報コンピュータを用いたホモロジーモデリングアミノ酸配列目的タンパク質（立体構造未知）参照タンパク質（立体構造既知）標的タンパク質の立体構造予測（モデリング）医薬品開発など

ホモロジーモデリング法の開発 CHIMERA FAMS CHIMERAの工程の自動化を目指して開発されたシステム。ゲノムワイドなモデリングに適している。　様々な情報や研究者の工夫を入れながら、対話的にモデリングできるシステム。 SKE-CHIMERA CHIMERAとFAMSを統合したウェブユーザーフェースシステム　モデリングの際に参考になる様々な情報をデータベース化し、自動化できる部分は自動化されているため、簡便に大量な情報を取り入れながら対話的にモデリングを行うことができるシステム。創薬などにおいて求められる高精度なモデルを構築するのに適している。　タンパク質の機能、リガンドとの相互作用などを考える際に、側鎖のコンフォメーションは非常に重要。そこで、主鎖構造のみならず、側鎖構造も精度良く予測できることを目指した。

データベース構築の流れ 構造未知タンパク質のアミノ酸配列研究者はウェブユーザーインターフェースを通して、CHIMERAとFAMSの繰り返しにより、優れた立体構造のモデルに仕上げることができる SKE-CHIMERA FAMS （全自動システム） CHIMERA （インタラクティブ）アライメント繰り返しデータベースモデル構築モデルモデリング情報、低分子化合物情報などを含めたデータベース、およびこれらの情報を最新の状態に維持するためのシステムを構築した。 RIKEN FAMSBASE ・モデリングされたタン　パク質データの評価値・高精度なタンパク質立体構造予測(モデリング)情報・タンパク質に結合する低分子化合物情報・ヒト遺伝子モデリングデータ・ラット、マウス実験動物遺伝子モデリングデータ・全タンパク質モデリングデータ・全２７７生物種遺伝子モデリングデータ・タンパク質の説明

http://famshelp.gsc.riken.jp/famsbase/ RIKEN FAMSBASEのホームページ全277生物種遺伝子モデリングデータ全タンパク質モデリングデータラット、マウス遺伝子モデリングデータヒト遺伝子モデリングデータ

検索画面 ゲノム名検索遺伝子番号検索タンパク質構造番号検索期待値検索配列相同性検索キーワード検索アミノ酸配列検索

検索結果画面の例 GDT_TS=90 GDT_TS=48 評価値 GDT_TS : Global Distance Test Total Score

まず、http://famshelp.gsc.riken.jp/famsbase/ を経由してRIKEN FAMSBASE http://famshelp.gsc.riken.jp/famsbase/famsbase.html に入ります。一方、ブラウザの別ウインドウで、http://www.ncbi.nlm.nih.govサイトを開いて調べたい立体構造未知のタンパク質のアミノ酸配列を入手する。 RIKEN FAMSBASEの使い方ーアミノ酸配列からモデリングする場合ー Searchウインドウに、目的タンパク質名、例えば「human multidrug resistance protein MDR1」を入力して「Go」をクリックします。 P08183 を選択します。「Human FAMSBASE」を選択します。最初はDisplay: 「GenPept」のページが現れるので、Display のプルダウンメニューから「FASTA」を選択します。 FASTA のページが現れます。 RIKEN FAMSBASEの検索画面の Sequence Search (BLAST) にアミノ酸配列をペーストし、直下の「BLAST search」ボタンをクリックします。目的タンパク質表示されたアミノ酸配列を範囲選択＆コピーします。次頁へ

前頁から タンパク質立体構造ビューワーソフトでダウンロードされた構造情報ファイル（この例では MDR1 のモデルと reference PDB: 1Z2R の重ね合わせ）を読み込み、ビューワーソフトの表示方法を操作すると、このようなタンパク質立体構造を見ることができます。 BLAST の結果画面で Score の値が最高値を示している「2484」の部分をクリックします BLAST の結果の詳細が表示されます。「Superimpose」ボタンをクリックすると、RIKEN FAMSBASE の検索画面（前頁）でアミノ酸配列入力をした目的タンパク質 (human multidrug resistance protein MDR1) のモデルと、モデルを作る土台となるタンパク質の立体構造（reference PDB）を重ね合わせた構造情報ファイル（拡張子pdb）が自動的にダウンロードされます。 BLAST の結果画面で「NP_000918.2」をクリックします。 reference PDBの PDBID 「1Z2R」をクリックします上段には立体構造データファイルのダウンロードのボタン等、中段には reference PDB のアミノ酸配列との比較、配列比較の下にはリガンド情報が表示されます。モデリングデータや評価値の一覧表が表示されます。 RIKEN FAMSBASE トップページの上段の「Simple Japanese explanation to use RIKEN FAMSBASE from a journal site」から簡単な日本語マニュアルが、また、「Searching examples for Riken Famsbase」から詳しい使い方や実例を紹介したファイルがダウンロードできます。 RIKEN FAMSBASE トップページの下段の Links に、タンパク質立体構造ビューワーソフト (PYMOLなど) へのリンクが貼ってあります。

60 モデリングから得られた立体構造とモデリングに使用した参照タンパク質の立体構造を重ね合わせた例数字は評価値 GDT_TS (Global Distance Test Total Score)。評価値が高いほど重ね合わせた構造はよく一致している。

タンパク質立体構造予測の国際コンテストCritical Assessment of Techniques forProtein Structure Prediction Round 6 (CASP6) http://predictioncenter.org/casp6/Casp6.html • 　タンパク質立体構造予測の精度を競う国際 blind コンテスト　　　　　　　　　実験的に立体構造が解明（公開）される直前のタンパク質　　　　　　　　　のアミノ酸配列が出題される。　　　　　　　　　参加者は、予測モデルを期限日までに提出する。 • CASP6（2004年）　SKE-CHIMERAを用いて本研究室も参加6月7日～9月2日　コンテスト開催　　　　　　　　　　出題ターゲット数　：　64　（90ドメイン）　　　　　　　　　　参加グループ数　：　266 12月4日～8日　結果発表会　（Gaeta in Italy）主催者側から成績が発表される。　　　　　　　　　　成績が優秀であった上位入賞グループは、招待講演を行う。

December 5th: Homology Based Modeling Day http://predictioncenter.org/casp6/meeting/presentations/CASP6_Program.doc assessorによる評価招待講演（human predictor) 招待講演（server) 　独自に開発したシステムを用いて参加し、250を超える参加グループの中で、予測構造の正確さで国際的に高い評価を得ることができた。 Takeda-Shitaka M. et al., Proteins, 61 Suppl 7, 122-127 (2005).

model native: 1vla GDT_TS = 80.15 The highest score among the participants. コンテストに使われたタンパク質の例Target 229_2 (37%) TM0919, T. maritima (CM/easy) psipred :CEEEECCCEEEEEECCCCEEEEECCCCCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCEEEEEEEEEECCCCCCCEEEEEEEEEEsam-t02-dssp :CEEEECSTCEEEEEETTSEEEEECCCHHTTTCTCCCCHHHHHHHHHHHHHHHHHHHHHHHTTCCCCCEEEEEEEEEECCTTSCCEEEEEEEEEEEsam-t02-stride :CEEEEETTTEEEEEETTTEEEEEETTTTTTTTTTCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCTTEEEEEEEEECTTTTTTEEEEEEEEEEErobetta-jufo-3d :CEEEEECCEEEEEEECCCCEEECCCCCCCCCCCCCCCCHHHHHHHCCCCCHHHHHHHHHHHCCCCCCEEEEEEEEEEECCCCCCCEEEEEEEEEEprofsec :CEEEEECCCEEEEECCCCCEEEECCCCCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCEEEEEEEEEECCCCCCEEEEEEEEEEE T0229 :MQARWIGNMMFHVRTDSNHDVLMDTKEEVGGKDAAPRPLELVLTGLMGCTGMDVVSILRKMKVIDQMKDFRIEIEYERTEEHPRIFTKVHLKYIF :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGR--QDVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGR--QDVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGR--QDVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQ--DVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQ--DVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQ--DVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQD--VVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQD--VVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQD--VVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQDV--VDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQDV--VDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGN----SGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQDV--VDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDG----NSGDKAPSPMEMVLMAAGGCSAIDVVSILQKGR--QDVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDG----NSGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQ--DVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDG----NSGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQD--VVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGNS----GDKAPSPMEMVLMAAGGCSAIDVVSILQKGR--QDVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGNS----GDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQ--DVVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDGNS----GDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQD--VVDCEVKLTSERRE---RLFTHINLHFIV :ARVKWVEGLTFLGESASGHQILMDG----NSGDKAPSPMEMVLMAAGGCSAIDVVSILQKGRQDV--VDCEVKLTSERRE---RLFTHINLHFIV psipred :EECCCCCHHHHHHHHHHHCCCCCCEEEECCCCCEEEEEEEECCsam-t02-dssp :ECSSCCCHHHHHHHHHHHHHHHHHHHHHHTTCCEEEEEEEEECsam-t02-stride :ECTTTCCHHHHHHHHHHHHHTCCCHHHHHTTTEEEEEEEEECCrobetta-jufo-3d :EEECCCCHHHHHHHHHHHCCCCCCCCCHHCCCEEEEEEEEECCprofsec :EECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCEEEEEEEECC T0229 :KFDGEPPKDKVEKAVQLSQEKYCSVSAILKCSSKVTYEIVYEN :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRD-LKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRDL-KDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRD-LKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRDL-KDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRD-LKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRDL-KDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRD-LKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGRDL-KDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVVA :TGR-DLKDAAVARAVDLSAEKYCSVALMLEKAVNITHSYEVV

タンパク質立体構造情報に基づく合理的薬剤設計（SBDD：Structure-Based Drug Design）ゲノム情報の解読創薬ターゲットの選定計算による立体構造予測実験による立体構造決定計算によるヒット化合物探索実験によるリード化合物探索計算によるリード化合物最適化実験によるリード化合物最適化薬剤候補物質タンパク質の機能は，特異的に結合する分子（基質）との相互作用により制御され，この結合には立体構造的な相補性が重要な役割を果たす．一方，疾病の多くは，タンパク質の正常な活動からの逸脱に起因すると考えられる．したがって，ある疾病関連タンパク質が特定された場合，その立体構造から引き出される情報を利用することにより，合理的な薬剤設計を行うことが可能となる．また，PCクラスター等大規模計算機システムとの組み合わせにより，短期間・低コストでの創薬が期待できる． SBDD研究のながれ立体構造解析活性部位化合物探索化合物最適化

低分子化合物の結合情報を含む高精度タンパク質 立体構造予測データベースを全世界に公開 －創薬研究の効率化や新規機能性生体物質の創製に向けて－