560 likes | 950 Views
神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II, 演習. 阿久津 達也. 東京大学 医科学研究所 ヒトゲノム解析センター. 講義内容 I. 蛋白質立体構造とその特徴 立体構造データベース: PDB 立体構造の分類: SCOP 立体構造表示ソフト: RASMOL 構造予測法の分類. 講義内容 II. 物理的原理に基づく方法 格子モデル 二次構造予測法 スレッディング法 スコア関数 立体構造予測コンテスト CASP. 実習内容. 立体構造の検索、表示、分類
E N D
神奈川科学技術アカデミーバイオインフォマティクスコース蛋白質立体構造予測 I,II,演習 阿久津 達也 東京大学 医科学研究所 ヒトゲノム解析センター
講義内容 I • 蛋白質立体構造とその特徴 • 立体構造データベース: PDB • 立体構造の分類: SCOP • 立体構造表示ソフト: RASMOL • 構造予測法の分類
講義内容 II • 物理的原理に基づく方法 • 格子モデル • 二次構造予測法 • スレッディング法 • スコア関数 • 立体構造予測コンテスト CASP
実習内容 • 立体構造の検索、表示、分類 (PDB,RASMOL,SCOP) • 立体構造アライメント(DALI) • 二次構造予測(PHD) • フォールド予測(スレッディング) (GTOP,FUGUE,3DPSSM) • ホモロジーモデリング(FAMS) • CASP
遺伝子と蛋白質 • 遺伝情報の流れ • DNA⇒RNA⇒タンパク • 遺伝子 • DNA配列中で直接的に 機能する部分 • ゲノム • 染色体全体(半数体) • 遺伝情報の総体 • タンパク質 • アミノ酸(20種類)の鎖
蛋白質立体構造予測 • アミノ酸配列から、蛋白質の立体構造(3次元構造)をコンピュータにより推定 • 実験よりは、はるかに精度が悪い • だいたいの形がわかれば良いのであれば、5割近くの予測率
アミノ酸と蛋白質 • アミノ酸:20種類 • 蛋白質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
アミノ酸の分類 • 疎水性アミノ酸 • Ala, Val, Leu, Ile, Phe, Pro, Met • 荷電アミノ酸(親水性) • Asp, Glu, Lys, Arg • 極性アミノ酸 • Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp • グリシン(疎水性に分類されることもある) • Gly
蛋白質の種類と高次構造 • 蛋白質の分類 • 球状蛋白質 • 繊維状蛋白質 • 膜蛋白質 • 一次構造(アミノ酸配列) • 二次構造(α、β、それ以外(ループ、コイル)) • 三次構造(三次元構造、立体構造) • 四次構造(複数の鎖)
蛋白質立体構造の決定 • 主にX線結晶解析かNMR解析による • 一般にX線解析の方が精度が高い • しかし、結晶中の構造しかわからない • アミノ酸配列決定より困難 • 半年から1年くらいかかることも珍しく無い • 既知アミノ酸配列 > 10万 • 既知立体構造 < 1万
蛋白質立体構造の特徴 • 基本的には鎖(ひも)状 • 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る • αへリックス(らせん状の部分) • βシート(ひも状の部分が並んだ部分)
構造とアミノ酸の種類の関係 • (球状)蛋白質 • 内側:疎水性アミノ酸 外側:親水性アミノ酸 • αへリックス • 内側:疎水性 外側:親水性 • βストランド • 疎水性と親水性が交互に現れる • ループ領域 • 親水性が高い
立体構造データベース • PDB(Protein Data Bank ) • 蛋白質立体構造データベース • 現在約16000データ(ただし重複あり) • SCOP • 立体構造分類データベース • FSSP/DALI • 立体構造アライメントデータベース/アライメントサーバー
蛋白質立体構造の分類 • 構造分類の必要性 • 立体構造と機能の間には密接な関係 • 配列が似ていなくても構造類似の蛋白質が多数存在 • SCOPによる階層的クラス分け • Class: 二次構造の組成(α、β、α+βなど)に基づく分類 • Fold: 構造の類似性 • Superfamily: 進化的類縁性 • Family: 明らかな進化的類縁性
立体構造アライメント • 立体構造の類似性判定のために有用 • どのように回転、平行移動すれば、最適な残基間の対応づけが得られるかを計算 • DALI,VASTなどいくつかのアルゴリズム
Rasmol • 蛋白質立体構造表示ツール • Windows版、UNIX版、LINUX版など(フリー) • バックボーン表示、リボン形式など様々な形式での表示が可能 • マウスなどで、回転、拡大なども可能
立体構造予測法の分類 • 力学的原理に基づく方法 • 格子モデル • 2次構造予測 • スレッディング
物理的原理に基づく方法 • エネルギー最小化、もしくは、微分方程式を(数値的に)解く、などの物理的原理に基づく方法 • 主として分子動力学法(Molecular Dynamics) • 数十残基程度であれば、実際の蛋白質やペプチドと似た構造を推定可能(なことがある) • 構造の最適化や安定性の解析には実用的 • 側鎖のパッキングの計算にも有効 • 超並列計算機の利用 IBM BLUE GENEなど
分子動力学法 • エネルギーの極小化(Eを極小化) • フォールディングのシミュレーション • mi d2ri/dt2 = -∇i E を差分化 • E = Eb + Eθ + Eφ + Evdw + Eel • Eb = ΣKb(r-r0)2 結合長 • Eθ = ΣKθ(θ-θ0)2 結合角 • Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 • Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 • Eel = Σqiqj/(εrij) 静電相互作用(クーロン力)
格子モデル • 各残基が格子点にあると仮定 • 予測よりも、フォールディングの定性的な理解のために利用される
格子モデルに基づく研究 • 折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネル • エネルギー最小の構造の計算法→NP困難
二次構造予測 • アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 • でたらめに推定しても、33.3%の的中率 • 最も高精度なソフトを使えば、70%~80%の的中率 • ニューラルネット、HMM、サポートベクタマシンなどの利用
膜蛋白質の膜貫通領域予測 • 膜貫通領域 • αへリックス • 7~17残基程度の疎水性指標の平均値をプロット • 平均値が高い部分が膜貫通領域と推定
フォールド予測(Fold Recognition) • 精密な3次元構造ではなく、だいたいの形(fold)を予測 • 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく
蛋白質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアライメント
蛋白質スレッディングによる構造予測 • 構造未知の配列と既知の立体構造(数百種類程度)の間のスレッディングを、それぞれ、計算 • スレッディング結果のスコア(適合度)が最も高い構造を採用(スレッディングにより対応づけられた座標にアミノ酸を配置) • 必要があれば、分子動力学法などを用いて構造を最適化
スレディング法の分類 • プロファイルによるスレッディング • PSI-BLAST • 3D-1D法 • 構造アライメント結果に基づくスレッディング • 残基間ポテンシャルによるスレッディング • コンタクトポテンシャル • 距離依存ポテンシャル • その他のポテンシャル
プロファイル • アライメントにおけるスコア行列と類似 • スレッディングの場合、残基位置ごとにスコア(位置依存スコア)
プロファイルによるアライメント • 動的計画法(DP)により最適解を計算 • スコア行列のかわりにプロファイルを使う
3D-1Dプロファイル • 最初のversionはEisenbergらが1991年に提案 • 構造中の残基(位置)を18種類の環境に分類 • 二次構造 (3種類) • 内外性+極性(6種類)
その他のプロファイル • 配列のマルチプルアライメントに基づくプロファイル • PSI-BLAST、HMM • 立体構造のマルチプルアライメントに基づくプロファイル作成 • 角度情報なども考慮したプロファイル
アライメントプロファイルに基づくスレッディングアライメントプロファイルに基づくスレッディング
ポテンシャル型スコア関数を用いたスレッディングポテンシャル型スコア関数を用いたスレッディング • 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算)
プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数とポテンシャル型スコア関数 • プロファイル型スコア関数 (Eisenberg et al. 1991) • ポテンシャル型スコア関数 (Miyazawa, Sippl, . . .)
コンタクトポテンシャルと距離依存ポテンシャルコンタクトポテンシャルと距離依存ポテンシャル • コンタクトポテンシャル (Miyazawa... 1985) • 比較的少ないデータからスコア関数を導出可能 • 距離依存ポテンシャル (Sippl, . . .) • 精度の高いスコア関数を得るには多くのデータが必要
ポテンシャル型関数を用いた場合の最適解の計算ポテンシャル型関数を用いた場合の最適解の計算 • 厳密な最適解の計算は困難(NP完全) • 様々なアルゴリズムの提案 • 分枝限定法 (Lathrop & Smith 94,96) • 多くの場合に現実的な時間で最適解を計算可能 • コア領域内でのギャップは許されない • Frozen Approximation(Godzik & Skolnick 92) • 通常のDPと同様のアルゴリズムが利用可能 • Double DP (Jones, Taylor & Thornton 92) • DPを二重に用いる • 立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由とFrozen Approximation • ○にFをアラインする際のスコアの正確な計算には、○に何がアラインされているかを知ることが必要 • Frozen Approximation もとの構造中で○に割り当てられている残基の情報を利用 (図の例ではFとDのコンタクトポテンシャル)
スコア関数の導出 • 残基の出現頻度の対数をとる • 統計力学のボルツマン分布などが根拠 • 3D-1Dスコア • 環境eのもとでの残基aの出現頻度:fe(a) • 環境eの出現確率 score(e,a)=log (fe(a)/ fe) • ポテンシャル型スコア (Quasichemical Approximation (Miyazawa 85)) • 距離dにおける残基ペアa,bの出現頻度:fd(a,b) scored(a,b) =-log fd(a,b)
他のスコア関数導出法 • 学習データ(既知構造データ)より以下を満たすスコア(エネルギー)を導出 • 正しい構造のエネルギー < 誤った構造のエネルギ or • Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) • ニューラルネット (Goldstein et al. 92) • モンテカルロ法 (Mirny,Shakhnovich 96) • 線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ • プロファイル型 • DPによりスレッディングが計算可能 • ポテンシャル型 • DPは(直接は)適用不可 • Frozen Approximation, Double DP, … • コンタクトポテンシャル • 距離依存ポテンシャル • スコア関数の導出 • 対数頻度
立体構造予測コンテスト:CASP • CASP (Critical Assessment of Techniques for Protein Structure Prediction) • ブラインドテストにより予測法を評価 • 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 • 参加者は予測結果を送付 • 構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表 • CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000) • CAFASP(1998,2000) • 完全自動予測法の評価 • 結果の公表 • 会議 • ホームページ • http://predictioncenter.llnl.gov/ • 学術専門誌(Proteins)
予測カテゴリー • 3D coordinate • 具体的な座標値まで計算→MDなど • Alignments to PDB structure • スレッディング • Residue-residue contacts • 残基間距離の推定 • Secondary structure assignments • 二次構造予測
各種サイト • PDB(立体構造データベース) • RASMOL(立体構造表示プログラム) • PHD(二次構造予測システム) • GTOP(PSI-BLASTベースの予測システム) • CAFASP2 servers(各種スレッディングプログラムへのリンク)
まとめ • 立体構造予測 • 正確な座標は予測できない • だいたいの形の予測であれば5割程度 • 二次構造予測であれば、70%-80%程度 • 実用的な予測法 • PSI-BLASTに基づく方法が有力 • 進行中のプロジェクト • 立体構造の網羅的決定→ 残りの構造はアライメントでほぼ確実に推定