430 likes | 626 Views
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(4) タンパク質立体構造予測 ースレッディング法を中心としてー. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 内容. 構造予測に関連する基本事項 立体構造予測の分類 スレッディング法 3 D-1D プロファイル ポテンシャル型スコア関数を用いたスレッディング CASP まとめ. タンパク質立体構造予測. アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 実験よりは、精度は低い
E N D
集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(4)タンパク質立体構造予測ースレッディング法を中心としてー集中講義(東京大学)「化学システム工学特論第3」バイオインフォマティクス的手法による化合物の性質予測(4)タンパク質立体構造予測ースレッディング法を中心としてー 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
内容 • 構造予測に関連する基本事項 • 立体構造予測の分類 • スレッディング法 • 3D-1Dプロファイル • ポテンシャル型スコア関数を用いたスレッディング • CASP • まとめ
タンパク質立体構造予測 • アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定 • 実験よりは、精度は低い • だいたいの形がわかれば良いのであれば、5割近くの予測率
アミノ酸とタンパク質 • アミノ酸:20種類 • タンパク質:アミノ酸の鎖(短いものはペプチドと呼ばれる)
タンパク質の種類と高次構造 • タンパク質の分類 • 球状タンパク質 • 繊維状タンパク質 • 膜タンパク質 • 一次構造(アミノ酸配列) • 二次構造(α、β、それ以外(ループ、コイル)) • 三次構造(三次元構造、立体構造) • 四次構造(複数の鎖)
タンパク質立体構造の決定 • 主にX線結晶解析かNMR解析による • 一般にX線解析の方が精度が高い • しかし、結晶中の構造しかわからない • アミノ酸配列決定より困難 • 半年から1年くらいかかることも珍しく無い • 既知アミノ酸配列 > 10万 • 既知立体構造(重複を除く) < 1万数千
タンパク質立体構造の特徴 • 基本的には鎖(ひも)状 • 二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る • αへリックス(らせん状の部分) • βシート(ひも状の部分が並んだ部分)
立体構造データベース • PDB(Protein Data Bank ) • タンパク質立体構造データベース • 現在約20000データ(ただし重複あり) • SCOP • 立体構造分類データベース • FSSP/DALI • 立体構造アライメントデータベース/アライメントサーバー
タンパク質立体構造の分類 • 構造分類の必要性 • 立体構造と機能の間には密接な関係 • 配列が似ていなくても構造類似のタンパク質が多数存在 • SCOPによる階層的クラス分け • Class: 二次構造の組成(α、β、α+βなど)に基づく分類 • Fold: 構造の類似性← スレッディング法の対象 • Superfamily: 進化的類縁性 • Family: 明らかな進化的類縁性
立体構造予測法の分類 • 物理学的原理に基づく方法 • 格子モデル • 2次構造予測 • スレッディング
物理的原理に基づく方法 • エネルギー最小化、もしくは、微分方程式を(数値的に)解く、などの物理的原理に基づく方法 • 主として分子動力学法(Molecular Dynamics) • 数十残基程度であれば、実際の蛋白質やペプチドと似た構造を推定可能(なことがある) • 構造の最適化や安定性の解析には実用的 • 側鎖のパッキングの計算にも有効 • 超並列計算機の利用、専用計算機の開発
分子動力学法 • エネルギーの極小化(Eを極小化) • フォールディングのシミュレーション • mi d2ri/dt2 = -∇i E を差分化 • E = Eb + Eθ + Eφ + Evdw + Eel • Eb = ΣKb(r-r0)2 結合長 • Eθ = ΣKθ(θ-θ0)2 結合角 • Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 • Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 • Eel = Σqiqj/(εrij) 静電相互作用(クーロン力)
格子モデル • 各残基が格子点にあると仮定 • 予測よりも、フォールディングの定性的な理解のために利用される
親水性アミノ酸 疎水性アミノ酸 スコア =-9 スコア =-5 配列 格子モデルに基づく研究 • 折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネル • エネルギー最小の構造の計算法→NP困難
格子モデル(String Folding問題)に関する結果 • 2次元で1/4近似、3次元で3/8近似 [Hart,Istrail, STOC’95] • 3次元でNP-Hard [Berger,Leighton,RECOMB’98] • 2次元でNP-Hard [Crescenzi et al.,STOC’98] • 2次元で1/3近似 [Newman, SODA’02] • 実際には数十残基まで最適解が計算可能
二次構造予測 • アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測 • でたらめに推定しても、33.3%の的中率 • 最も高精度なソフトを使えば、70%~80%の的中率 • ニューラルネット、HMM、サポートベクタマシンなどの利用
フォールド予測(Fold Recognition) • 精密な3次元構造ではなく、だいたいの形(fold)を予測 • 立体構造は1000種類程度の形に分類される、との予測(Chotia, 1992)に基づく
タンパク質スレッディング 立体構造(テンプレート)とアミノ酸配列の間のアライメント
スレディング法の分類 • プロファイルによるスレッディング • PSI-BLAST • 3D-1D法 • 構造アライメント結果に基づくスレッディング • 残基間ポテンシャルによるスレッディング • コンタクトポテンシャル • 距離依存ポテンシャル • その他のポテンシャル
プロファイル • アライメントにおけるスコア行列と類似 • スレッディングの場合、残基位置ごとにスコア(位置依存スコア)
プロファイルによるアライメント • 動的計画法(DP)により最適解を計算 • スコア行列のかわりにプロファイルを使う
3D-1Dプロファイル • 最初のversionはEisenbergらが1991年に提案 • 構造中の残基(位置)を18種類の環境に分類 • 二次構造(3種類) • 内外性+極性(6種類)
その他のプロファイル • 配列のマルチプルアライメントに基づくプロファイル • PSI-BLAST、HMM • 立体構造のマルチプルアライメントに基づくプロファイル作成 • 角度情報なども考慮したプロファイル • プロファイル vs プロファイルによるアライメント
アライメントプロファイルに基づくスレッディングアライメントプロファイルに基づくスレッディング
ポテンシャル型スコア関数を用いたスレッディングポテンシャル型スコア関数を用いたスレッディング • 全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最小となるようなスレッディングを計算)
プロファイル型スコア関数とポテンシャル型スコア関数プロファイル型スコア関数とポテンシャル型スコア関数 • プロファイル型スコア関数 (Eisenberg et al. 1991) • ポテンシャル型スコア関数 (Miyazawa, Sippl, . . .)
コンタクトポテンシャルと距離依存ポテンシャルコンタクトポテンシャルと距離依存ポテンシャル • コンタクトポテンシャル (Miyazawa... 1985) • 比較的少ないデータからスコア関数を導出可能 • 距離依存ポテンシャル (Sippl, . . .) • 精度の高いスコア関数を得るには多くのデータが必要
ポテンシャル型関数を用いた場合の最適解の計算(1)ポテンシャル型関数を用いた場合の最適解の計算(1) • 厳密な最適解の計算は困難(NP完全) • 最適解の計算法 (コア領域内ではギャップ無し) • 分岐限定法 (Lathrop & Smith 96) • コアの位置の範囲を徐々に縮小 • 大きなタンパクに対しては最適解が計算不可 • 分割統治を用いる方法(Y. Xu et al., 1998) • 線形計画法を用いる方法 (J. Xu et al. 2003) • 整数計画問題として定式化し、更に線形計画問題に緩和 • 線形計画問題の解をもとに整数計画の解を探索 • 多くの場合には線形計画問題の解が整数解(最適解) • CAFASP3 でも良好な成績
ポテンシャル型関数を用いた場合の最適解の計算(2)ポテンシャル型関数を用いた場合の最適解の計算(2) • コア領域のスレッディング
ポテンシャル型関数を用いた場合の最適解の計算(3)ポテンシャル型関数を用いた場合の最適解の計算(3) • 近似解法 • Frozen Approximation(Godzik & Skolnick 92) • ポテンシャルエネルギー計算の際に、もとの構造の残基を用いる • 通常のDPと同様のアルゴリズムが利用可能 • Double DP (Jones, Taylor & Thornton 92) • DPを二重に用いる • 立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由とFrozen Approximation • ○にFをアラインする際のスコアの正確な計算には、○に何がアラインされているかを知ることが必要 • Frozen Approximation もとの構造中で○に割り当てられている残基の情報を利用 (図の例ではFとDのコンタクトポテンシャル)
スコア関数の導出 • 残基の出現頻度の対数をとる • 統計力学のボルツマン分布などが根拠 • 3D-1Dスコア • 環境eのもとでの残基aの出現頻度:fe(a) (条件付確率) score(e,a)=log (fe(a)/fe) • ポテンシャル型スコア (Quasichemical Approximation (Miyazawa 85)) • 距離dにおける残基ペアa,bの出現頻度:fd(a,b) scored(a,b) =-log fd(a,b)
他のスコア関数導出法 • 学習データ(既知構造データ)より以下を満たすスコア(エネルギー)を導出 • 正しい構造のエネルギー < 誤った構造のエネルギ or • Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) • ニューラルネット (Goldstein et al. 92) • モンテカルロ法 (Mirny,Shakhnovich 96) • 線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ • プロファイル型 • DPによりスレッディングが計算可能 • ポテンシャル型 • DPは(直接は)適用不可 • Frozen Approximation, Double DP, 線形計画法の利用 • コンタクトポテンシャル • 距離依存ポテンシャル • スコア関数の導出 • 対数頻度
立体構造予測におけるブレークスルー • スレッディング法の発明(Eisenberg et al., 1991) • 構造既知の配列と類似性が無い配列の構造予測 • PSI-BLASTの開発(Altschul et al, 1997) • プロファイルに基づくマルチプルアライメントの繰り返し実行によるスレッディング • David Baker による ab initio 予測(1997) • 統計情報+シミュレーション
立体構造予測コンテスト:CASP • CASP (Critical Assessment of Techniques for Protein Structure Prediction) • ブラインドテストにより予測法を評価 • 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開 • 参加者は予測結果を送付 • 構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表 • CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000), CASP5(2002), CASP6(2004) • CAFASP(1998,2000,2002,2004) • 完全自動予測法の評価 • 結果の公表 • 会議 • ホームページ • http://prediction center.llnl.gov/ • 学術専門誌(Proteins)
まとめ • 立体構造予測 • 正確な座標は予測できない • だいたいの形の予測であれば4~5割近く • 二次構造予測であれば、70%-80%程度 • 国際プロジェクトの進展と構造予測 • 立体構造の網羅的決定(タンパク質3000プロジェクトなど) → 残りの構造はアライメントでほぼ確実に推定? → スレッディングは不要?
参考文献 • CASP5特集:Proteins, 53, Supplement 6 (2003)