330 likes | 605 Views
「 Structure-dependent sequence alignment for remotely related proteins 」 An-Suei Yang “BIOINFORMATICS” Vol.18 no. 12 2002 Pages 1658-1665. 修士 1 年 才野 大輔. 配列テンプレートの アラインメント予測. 配列テンプレートペアが遠縁になる. 配列アラインメント方法が問題. ABSTRACT. Motivation 比較モデリング手法によるモデル構造の質は予測された配列テンプレートアラインメントの精度によって決定される
E N D
「Structure-dependent sequence alignment for remotely related proteins」An-Suei Yang“BIOINFORMATICS” Vol.18 no. 12 2002 Pages 1658-1665 修士1年 才野 大輔
配列テンプレートの アラインメント予測 配列テンプレートペアが遠縁になる 配列アラインメント方法が問題 ABSTRACT • Motivation • 比較モデリング手法によるモデル構造の質は予測された配列テンプレートアラインメントの精度によって決定される • 配列テンプレートペアの配列関係と関連してテンプレートの構造情報を用いることで配列テンプレートの精度を著しく改良することができるだろう
ABSTRACT • Results • Structure-dependent sequence alignment (SDSA) • 構造は類似しているが配列関係は検出できない412のタンパク質ペアで範囲と精度に関して最適化 • SDSAの拡張PSI-BLAST(局所的)への応用 • 局所的アラインメント中の残基ペアの制約のもとで大域的アラインメントを計算 • 評価 • 構造は類似、配列はわずかに関係している1421のタンパク質ペアで評価(標準PSI-BLASTアラインメントと比較) • 正確にアラインされた残基群で平均27%多くのアラインされた残基ペアを予測した
ABSTRACT • すべての計算と評価の手法は統合された計算システムPrISM.1(Protein Informatics System for Modeling)に導入
INTRODUCTION • 全ゲノム解析レベルでの大規模なアノテーション • 比較モデリング手法を自動的に行うことが必要不可欠 • PSI-BLASTのような標準配列アラインメント方法 • 配列テンプレートペアが遠縁である場合 • 一般的な解決法がない • 配列テンプレートアラインメントの問題 • 遠縁タンパク質ペアのための配列テンプレートアラインメント精度 • の改善をする計算手法(SDSA) • PSI-BLASTプログラムのアプリケーションの向上
METHODS • Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • Standard PSI-BLAST alignments • Extending a PSI-BLAST local alignment to a global sequence-template alignment (the PSI-BLAST + SDSA procedure) • Training and testing protein structure pairs • Assessing the accuracy of a sequence-structure alignment • An integrated computational system
Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • SDSA手法 • 構造特有の評価 • Needleman-Wunsch global alignment algorithm • Needleman-Wunsch dynamic programming algorithm • 最も高いスコアと2次元配列Hで最も高いスコアの累積を導く最大一致経路を見つけ出すことでアラインメントとアラインメントスコアを決定 Na:問い合わせ配列の残基数 Nb:テンプレート配列の残基数 D:アミノ酸置換行列 g((i,j),(k,l)):挿入/欠失ペナルティ関数 (i,j):挿入/欠失領域前の最後の残基ペア (k.l):挿入/欠失領域後の最初の残基ペア
A :α-へリックス領域中の残基のためのアミノ酸置換行列A :α-へリックス領域中の残基のためのアミノ酸置換行列 B :β-ストランド領域中の残基のためのアミノ酸置換行列 C :コイル領域中の残基のためのアミノ酸置換行列 :α-へリックス領域中にあるアミノ酸残基 i の確率比のlogオッズ :β-へリックス領域中にあるアミノ酸残基 i の確率比のlogオッズ :コイル領域中にあるアミノ酸残基 i の確率比のlogオッズ Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • 問い合わせ配列の2次構造の傾向のような構造の傾向を置換行列へと組み込む • テンプレートタンパク質の構造は既知 • 構造特有の置換行列Dを使う • テンプレート残基jにアラインされた問い合わせ残基iのための構造特有置換行列が構築される
x :3つの二次構造要素の種類 :二次構造要素の種類 x 中にあるアミノ酸の種類 i での残基数 :アミノ酸の種類 i での残基の総数 :二次構造要素の種類 x 中の残基の総数 :構造的にアラインされた残基ペアのセット中の残基の総数 Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • Piは以下の等式で定義 • 分母 は二次構造要素の種類 x に対してアミノ酸残基がランダムに一致する期待確率 • 分子 は二次構造要素の種類 x に対してアミノ酸残基 i が一致するものがデータセット中に見つかる確率 • Pi(x)はアミノ酸 i の標準化された二次構造の傾向と考えられる
Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • 定数 f • 理論上、置換行列A、B、Cが等式(2)のPi(x)とともに使われるとき、定数 f はひとつであるべき • 実際は、タンパク質ペアのトレーニングセットでのアラインメントの精度を最適化することで実験的に定数 f を決定 • パラメータ • テンプレート構造の残基 j が溶媒にさらされるかどうかで決定 • 分子の内側に埋もれた残基(buried residue)の重要性を強調 • 一般的に溶媒にさらされた残基よりも保存されている
Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • 重み • テンプレート構造で不可欠 • α-へリックス、β-ストランドに対する重み • 大域的アラインメントに対して重み付けされた残基を常に含む • 理論上、テンプレート構造に関するより多くの情報が既知であれば、 は残基によってことなりうる • ここではテンプレート中のすべての二次構造要素に対して に設定
Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • ギャップペナルティ関数 • 構造特有 • 挿入ペナルティ関数 • 欠失ペナルティ関数
b(k-i-2) a Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • 挿入ペナルティ関数 • テンプレート残基 j , j+1 間で i+1 から k-1 まで問い合わせ残基を挿入するペナルティ • a:最初に挿入する残基に対するギャップペナルティ • b:残基ごとの伸長ギャップペナルティ • c(j , j+1):構造特有ペナルティ項 • 残基 j , j+1 が2つともα-へリックス(β-ストランド)にあるとき c(j , j+1) = 100 • それ以外 c(j , j+1) = 0 • α-へリックス(β-ストランド)の真ん中で起こる挿入を防ぐ
b(k-j-2) a Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • 欠失ペナルティ関数 • 問い合わせ残基 j , k 間でテンプレート残基を欠失するペナルティ • a:最初に挿入する残基に対するギャップペナルティ • b:残基ごとの伸長ギャップペナルティ • DIST(j , k):Å単位でテンプレート残基 j からテンプレート残基 k までの Cα-Cα 距離 • d:実験的定数 • d×DIST(j , k) は欠失の境界が間隙を介して次第に隔てられていくにつれてアラインメントにおけるテンプレート構造の欠失を次第に困難にする
Structure-dependent sequence alignment (SDSA) procedure for distantly related protein pairs • SDSA 手法の新規性 • 実験的パラメータ(a , b , d , f , )の設定 • それぞれのペアの構造は類似しているが、配列類似性は本質的にランダムな配列ペアと同じレベルである 412 のタンパク質ペアのトレーニングセットで最適化
Standard PSI-BLAST alignments • 標準PSI-BLASTアラインメント • 問い合わせ配列はデフォルトのパラメータ設定を使って、NCBI nr でPSI-BLASTを4回繰り返し行われる • デフォルトのパラメータ設定 • 置換行列:BLOSUM62 • ギャップペナルティ:11-1 • 閾値:E-value = • nr データベース中の配列の低複雑度領域はデフォルトパラメータでSEGプログラムを使ってマスクがかけられている • 最後の繰り返しからの The position-specific scoring matrix (PSSM) はチェックポイントファイルとして保存、テンプレート配列と問い合わせ配列が一致するために個々の一回繰り返しPSI-BLAST実行に使われる • E-value • 問い合わせ配列が探索されるデータベースのサイズに対して線形比例 • 配列ペアの p-value とみなせる
Extending a PSI-BLAST local alignment to a global sequence-template alignment (the PSI-BLAST + SDSA procedure) • PSI-BLAST局所的アラインメントとSDSA手法を一体化する手法 • PSI-BLASTアラインメント手法が問い合わせの局所的アラインメントとテンプレート配列を含んだ基本的な出力ファイルを出力 • アラインされた残基ペアはSDSAモジュールへと読み込まれる • アミノ酸置換行列Dの修正 • 固定重み • 問い合わせ配列の残基 i とテンプレート残基 j がPSI-BLASTアラインメント中にアラインされるとき 1 に設定 • それ以外は重みを 0 に設定 • 問い合わせ-テンプレートペアの一致領域での最適なアラインアラインメント方法を利用した複合アラインメント手法
Training and testing protein structure pairs • トレーニングセット • 配列関係が検出されていない類似タンパク質構造のペアを含む • タンパク質ペア • 40%以上のペアワイズ配列一致のない条件(PDB40D-B)でSCOPデータベースのサブセット中のそれぞれのタンパク質構造ドメインを使って選ばれた • タンパク鎖は40残基より少なく、1つか0の二次構造要素という条件でデータセットから取り除かれる • 基準を満たす構造ペアに標準PSI-BLASTを実行し、E-valueカットオフ=100では配列類似性が検出されない構造ペアのみ選ぶ • 合計で412のタンパク質ペアが含まれる(平均ペアワイズ配列一致=8%) • これらのタンパク質ペアには配列アラインメントは使えない • 配列一致は構造アラインメントに基づいて計算
Training and testing protein structure pairs • テストセット • ペアワイズ配列一致25%未満でPDB_SELECT25の重複のないタンパク質構造の新しいセットから構成 • PDBエントリーは構造ドメインに分ける • 全対全の構造アラインメントで構造基準を満たすタンパク質ペアを集める • トレーニングセットに含まれていたタンパク質ペアは消去 • 合計で1421のタンパク質構造ペアが含まれる(平均ペアワイズ配列一致=13%) • 配列一致は構造アラインメントに基づいて計算
Training and testing protein structure pairs • 注意 • A:Bのタンパク質ペア、B:Aのタンパク質ペアの両方を含みうる • (問い合わせタンパク質):(構造テンプレートタンパク質) • 異なる位置特有スコア行列がアラインメントに使われるため、上の2つのタンパク質ペアに対するPSI-BLASTアラインメントは異なる
Assessing the accuracy of a sequence-structure alignment • PrISM.1は自動化された配列ー構造アラインメント評価モジュールを含んでいる • アラインメント評価の結果を集約する評価モジュールからの出力例 CHEK::@b 13sdh A 2 146 total query residues n2: 145 -->N2 CHEK:: total query residues with standard alignment n3: 133 -->N3 CHEK:: total query residues with predicted alignment n4: 132 -->N4 CHEK:: % of query covered by standard alignment n3/n2: 91.724 ----------->str cov% CHEK:: % of query covered by test alignment n4/n2 : 91.034 ----------->seq cov% CHEK:: % of standard alignment predicted with 0 shift: 78.195 ----------->S0 CHEK:: % of standard alignment predicted with 1-2 shift: 10.526 ----------->S1-2 CHEK:: % of standard alignment predicted with 3-4 shift: 9.774 ----------->S3-4 CHEK:: % of standard alignment predicted with 5-6 shift: 0.000 ----------->S5-6 CHEK:: % of standard alignment predicted with 7-8 shift: 0.000 ----------->S7-8 CHEK:: % of standard alignment predicted with 9-10shift: 0.000 ----------->S9-10 CHEK:: % of standard alignment predicted with >10shift: 0.000 ----------->S>10 CHEK:: % of standard alignment without predictions : 1.504 ----------->S・ CHEK:: % of standard alignment predicted correctedly : 84.211 ----------->Sc : ^ : ^ :(以下略) • 問い合わせ配列中の残基数 • 基準となる構造アラインメントに基づくテンプレート構造に対してアラインされた問い合わせ配列中の残基数 • 予測された配列アラインメントに基づくテンプレート構造に対してアラインされた問い合わせ中の残基数 • 構造アラインメントによってカバーされた問い合わせ配列の割合 • 予測された配列アラインメントによってカバーされた問い合わせ配列の割合
Assessing the accuracy of a sequence-structure alignment • アラインメント評価の結果を集約する評価モジュールからの出力例 CHEK::@b 13sdh A 2 146 total query residues n2: 145 -->N2 CHEK:: total query residues with standard alignment n3: 133 -->N3 CHEK:: total query residues with predicted alignment n4: 132 -->N4 CHEK:: % of query covered by standard alignment n3/n2: 91.724 ----------->str cov% CHEK:: % of query covered by test alignment n4/n2 : 91.034 ----------->seq cov% CHEK:: % of standard alignment predicted with 0 shift: 78.195 ----------->S0 CHEK:: % of standard alignment predicted with 1-2 shift: 10.526 ----------->S1-2 CHEK:: % of standard alignment predicted with 3-4 shift: 9.774 ----------->S3-4 CHEK:: % of standard alignment predicted with 5-6 shift: 0.000 ----------->S5-6 CHEK:: % of standard alignment predicted with 7-8 shift: 0.000 ----------->S7-8 CHEK:: % of standard alignment predicted with 9-10shift: 0.000 ----------->S9-10 CHEK:: % of standard alignment predicted with >10shift: 0.000 ----------->S>10 CHEK:: % of standard alignment without predictions : 1.504 ----------->S・ CHEK:: % of standard alignment predicted correctedly : 84.211 ----------->Sc : ^ : ^ :(以下略) 6~12:配列アラインメント中の アラインメント位置が移動する範囲内で予測された基準となる構造アラインメントの残基ペアの割合(分母:構造アラインメント中の残基ペアの数、分子:配列アラインメント中の移動する範囲内で発見される構造アラインメントペアの数) Sc:大域的アラインメントのアラインメント精度に対する指標 S0すべて、 S1-2の一部(ペアワイズCα-Cα距離>2Å)、 S3-4の一部( Cα-Cα距離>4Å)を含む Cα-Cα距離は構造アラインメント手法から問い合わせテンプレートペアの最適に 付加された構造を使って計算される
An integrated computational system • すべてのアラインメントと評価手法がPrISM.1に統合 • アラインメントと評価手法に関わる、計算手法とデータセットのフローチャート NCBI nr database Query sequence and structure Template sequence and structure PSI-BLAST Structure-dependent sequence alignment (SDSA) PSI-BLAST Position-specific scoring matrix Structural alignment PSI-BLAST alignment PSI-BLAST+ SDSA alignment Structural alignment Alignment assessment Alignment assessment Output
RESULTS AND DISCUSSION • Optimizing the structure-dependent sequence alignments (SDSA) • Extending PSI-BLAST local alignment with the PSI-BLAST + SDSA procedure • Conclusions
Optimizing the structure-dependent sequence alignments (SDSA) • 配列-構造アラインメント手法のパラメータ • 412タンパク質のペアのトレーニングセットを使って最適化 • パラメータの系統的な組み合わせ • 手法の実行 • テストされたパラメータの範囲 • q = 1 , 1.5 , 2 • f = 0 , 0.3 , 0.6 , 0.9 • d = 0 , 0.2 , 0.4 , 0.6 • a = 0 , 0.4 , 0.9 , 1.5 • b = 0 , 0.1 , 0.2 , 0.3 , 0.4 • 最適なアラインメント結果は以下のパラメータから得られた • q = 1.5 , f = 0.6 , d = 0.2 , a = 0.4 , b = 0.1 • 限られた組み合わせしか探索できないためアラインメント手法にとって必ずしも最適な値ではないが、さらに広範囲探索を行っても精度が著しくよくなることは期待されない
Optimizing the structure-dependent sequence alignments (SDSA) • 欠失/挿入ペナルティパラメータ(a,b,d)は正確なアラインメントを出力する際に最も重要な要因 • 二次構造傾向に対する重み(f)もアラインメント精度を向上させる • buried 残基に対する重み(q)はアラインメント精度には大して関係ない • 表より、大域的構造アラインメント(str cov%)に含まれるほぼすべての残基がSDSA(seq cov%)によってカバーされていることが示される • 残基ペアの平均69%が4位置未満の移動で予測される • SDSA手法が基準となる構造アラインメントによって定義された正確な位置の近くに残基をアラインする能力がある • 平均で全残基ペアの25%しか構造アラインメントと一致する位置にアラインされない • 配列ペア間の保存された残基ペアが減少するとき、アラインメントの困難さにつながる • しかし、結果はアラインメント予測していなかったPSI-BLASTよりもかなり良い
Extending PSI-BLAST local alignment with the PSI-BLAST + SDSA procedure • SDSA手法の1つのアプリケーション • 局所的PSI-BLASTアラインメントを大域的アラインメントへと拡張すること(大域的構造モデリングのため) • テストセットの1421のタンパク質ペアでテスト • 96%のペアワイズ一致は閾値30%未満 • p-value はペアワイズ配列一致よりも配列-テンプレートアラインメントの精度を予想する際のより良い指標である • p-value大→PSI-BLASTアラインメントの精度と範囲悪くなる • SDSA手法によるアラインメントの精度と範囲は一部除いてPSI-BLASTアラインメントより良い • ではSDSA手法はより良い手法である • p-valueに従って配列-テンプレートアラインメントを予測する際に2つの異なる手法を使うことは厄介 → 複合手法PSI-BLAST+SDSA • PSI-BLAST+SDSA • テストセットのp-value全範囲で最も性能が優れている
Extending PSI-BLAST local alignment with the PSI-BLAST + SDSA procedure
Extending PSI-BLAST local alignment with the PSI-BLAST + SDSA procedure • 警告 • PSI-BLAST+SDSA手法はいくつかの場合、残基ごとにPSI-BLASTアラインメントより多くの誤ったアラインメントを含む大域的アラインメントを出力する • PSI-BLASTとPSI-BLAST+SDSAの比較 • SDSA手法は(A)と(B)で、より正確に予測された残基ペアでPSI-BLASTアラインメントを大域的アラインメントへと拡張 • SDSA手法は(C)では、PSI-BLASTアラインメントを無効にし、その配列の両端で正確なアラインメントを行った • 配列-テンプレートペアの配列関係が遠縁であるとき、どの予測されたアラインメントがとりわけ有効であるかというPSI-BLAST+SDSA手法の基準を明らかにする
PSI-BLAST only @ 233crd 1 100 : M.EARDKQVL RSLRLELGAE VLVEGLV.LQ YLYQEGILTE NHIQEINAQ. @b 8023ygs P 1 97 : SMDEADRRLL RRCRLRLVE. ELQVDQL.WD VLLSRELFRP HMIEDIQRAG @b 233crd 1 78 : .MEARDKQVL RSLRLELGA. EVLVEGLVLQ YLYQEGILTE NHIQEINAQT @ 233crd 1 100 : .TTGLRKTML LLDILPSRGP .KAFDTFLDS L..Q.EFPWV REKLKKAREE @b 8023ygs P 1 97 : SGSRRDQARQ LIIDLE.TRG SQALPLFISC LEDTGQ.DML ASFLRTNRQA @b 233crd 1 78 : TGLR..KTML LLDILP.SRG PKAFDTFLDS LQE....... .......... @ 233crd 1 100 : AMTDLPAG @b 8023ygs P 1 97 : G....... @b 233crd 1 78 : ........ @ 233crd 1 100 : M.EARDKQVL RSLRLELGAE VLVEGLV.LQ YLYQEGILTE NHIQEINAQ. @b 8023ygs P 1 97 : SMDEADRRLL RRCRLRLVE. ELQVDQL.WD VLLSRELFRP HMIEDIQRAG @t 233crd 1 100 : .MEARDKQVL RSLRLELGA. EVLVEGLVLQ YLYQEGILTE NHIQEINAQT @ 233crd 1 100 : .TTGLRKTML LLDILPSRGP .KAFDTFLDS L..Q.EFPWV REKLKKAREE @b 8023ygs P 1 97 : SGSRRDQARQ LIIDLE.TRG SQALPLFISC LEDTGQ.DML ASFLRTNRQA @t 233crd 1 100 : TG..LRKTML LLDILP.SRG PKAFDTFLDS LQE..F.PWV REKLKKAREE @ 233crd 1 100 : AMTDLPAG @b 8023ygs P 1 97 : G....... @t 233crd 1 100 : AMTDLPAG PSI-BLAST + SDSA
PSI-BLAST only @ 451bak 552 670 : GSHMGKDCIM HGYMSK.MGN PFLTQWQRRY FYLFPNRLEW R.GEG.EAPQ @b10761dyn A 10 122 : ....ILVI.R KGWLTINNIG IMKGGSKEYW FVLTAENLSW YKDDEEKEKK @b 451bak 628 644 : .......... .......... .......... .......... .......... @ 451bak 552 670 : SLLTMEEIQS VEE.TQIKER KCLLLKIR.. .GG....K.Q FILQCDSDPE @b10761dyn A 10 122 : YMLSVDNLKL RDVEKGFMSS KHIFALFNTE QRNVYKDYRQ LELACETQEE @b 451bak 628 644 : .......... .......... .......... ........KQ FILQCDSDPE @ 451bak 552 670 : LVQWKKELRD .AYREAQQLV QRVPKMKNKP RS @b10761dyn A 10 122 : VDSWKASFLR AGVYPERV.. .......... .. @b 451bak 628 644 : LVQWK..... .......... .......... .. @ 451bak 552 670 : ....GSHMGK DCIMHGYMSK .MGNPFLTQW QRRYFYLFPN RLEWR.GEG. @b10761dyn A 10 122 : ........IL VI.RKGWLTI NNIGIMKGGS KEYWFVLTAE NLSWYKDDEE @t 451bak 552 670 : GSHMGKDCI. .M.HGYMSKM GN.PFLTQWQ RRYFYL..FP NRLEWRGEGE @ 451bak 552 670 : EAPQSLLTME EIQSVEE.TQ IKERKCLLLK IR...GG... .K.QFILQCD @b10761dyn A 10 122 : KEKKYMLSVD NLKLRDVEKG FMSSKHIFAL FNTEQRNVYK DYRQLELACE @t 451bak 552 670 : APQS.LLTME E..IQSVEET QIKERK.CLL LKI..RG... G.KQFILQCD @ 451bak 552 670 : SDPELVQWKK ELRD.AYREA QQLVQRVPKM KNKPRS @b10761dyn A 10 122 : TQEEVDSWKA SFLRAGVYPE RV........ ...... @t 451bak 552 670 : SDPELVQWKK ELRDAYREAQ QLVQRVPKMK NKPRS. PSI-BLAST + SDSA
PSI-BLAST only @ 861qmc A219 270 : MIQNFRVYY. RDSR...... NPLWKGPAKL LWKG....EG AVVIQDNSDI @b10721ycs B462 519 : ....VIYALW DYEPQNDDEL PMKEGDCMTI IHREDEDEIE WWWARLNDKE @b 861qmc A243 246 : .......... .......... .......... .......... .WKGE..... @ 861qmc A219 270 : KVVPRRKAKI IRD @b10721ycs B462 519 : GYVPRN.LLG LYP @b 861qmc A243 246 : .......... @ 861qmc A219 270 : MIQNFRVYY. RDSR...... NPLWKGPAKL LWKG....EG AVVIQDNSDI @b10721ycs B462 519 : ....VIYALW DYEPQNDDEL PMKEGDCMTI IHREDEDEIE WWWARLNDKE @t 861qmc A219 270 : MIQNFRVYYR D....SRN.. PLWKGPAKLL WK..GEGAVV IQ..D.NSDI @ 861qmc A219 270 : KVVPRRKAKI IRD. @b10721ycs B462 519 : GYVPRN.LLG LYP. @t 861qmc A219 270 : KVVPRR.KAK IIRD PSI-BLAST + SDSA
Conclusions • PSI-BLASTアラインメント手法 • 同族の構造テンプレートに基づいて分子をモデリングするための最も正確な自動化されたアラインメント手法の1つ • SDSA手法 • PSI-BLASTアラインメントと組み合わせることで、PSI-BLASTアラインメントをさらに向上させることが明らかにされた • SDSA手法のユニークな特徴 • アラインメント手法が配列関係が定義されていないタンパク質ペアに対して設計された