80 likes | 454 Views
マルチプルアラインメント. 修士1年 才野 大輔 平成15年11月17日. 配列データベース検索. 1本の配列を問い合わせとして利用する方法 Smith & Waterman 法 Goad & Kanehisa 法 FASTA BLAST ( gapped BLAST ) 多数本の配列から得られる情報で検索する方法 モチーフ検索(コンセンサス法、重み行列法) ホモロジープロファイル法 PSI-BLAST PHI-BLAST 隠れマルコフモデル. マルチプルアラインメント. 3 つ以上の複数配列間のアラインメント 関係する遺伝子、タンパク質の研究
E N D
マルチプルアラインメント 修士1年 才野 大輔 平成15年11月17日
配列データベース検索 • 1本の配列を問い合わせとして利用する方法 • Smith&Waterman 法 • Goad&Kanehisa 法 • FASTA • BLAST(gapped BLAST) • 多数本の配列から得られる情報で検索する方法 • モチーフ検索(コンセンサス法、重み行列法) • ホモロジープロファイル法 • PSI-BLAST • PHI-BLAST • 隠れマルコフモデル
マルチプルアラインメント • 3つ以上の複数配列間のアラインメント • 関係する遺伝子、タンパク質の研究 • 遺伝子間の進化上の関係について推測 • 機能的・構造的に関連する配列のグループ間で共通するパターンを見つける
マルチプルアラインメント • N本の配列の最適アラインメント • 2次元DP法 → N次元DP法(*) • 2次元配列DをN次元に拡張し、その上で漸化式を解けば得られる • ただし莫大な計算量と記憶領域を要することからあまり使用されていない • (*)「A tool for multiple alignment」D.J.Lipman,S.F.Altschul,J.D.Kececioglu,Proc.Natl.Acad.Sci.USA,86,4412 (1989) • 現時点では、アラインメントを1本とみなし、2次元DP法によって配列あるいはアラインメントを適当な順序で並置するプログレッシブアラインメント法が良く利用されている • 例: ClustalW
ツリーベース法 • ClustalWはツリーベース法(プログレッシブアラインメント法の1つ)でアラインメントを作成 Step1:N本の配列を入力データとして読み込む Step2:N本の配列すべての配列ペアについてアラインメントを行い、その結果に基づき配列間の距離を計算 Step3:Step2で求めた距離をもとに系統樹(ガイドツリー)を作成 ClustalWではNj法(neighbor-joining法[近隣結合法])と呼ばれる系統樹作成法が使われている。ガイドツリーは配列間の距離として各ペアの比較で得られた近似的なものを使用しているため、進化的関係を正しく反映している保証はない Step4:ガイドツリーに従って、近縁なものから順番にアラインメントを構築
配列A 配列B 配列C 配列D 配列E 例:5本の配列A、B、C、D、E 4 遠縁 • Step1~3でガイドツリーが以下のように与えられたとする • Step4 1:最も近縁なAとCのアラインメント 2:次に近縁なDとEのアラインメント 3:DとEのアラインメントを1本の配列とみなし、Bとアラインメント 4:AとCのアラインメントとB、D、Eのアラインメントをそれぞれ1本の配列と見なしてアラインメント • Step4の結果が5本の配列のアラインメント • 最適スコアである保証はないが、ClustalWにより得られるアラインメントは、配列からの機能・構造情報の抽出には十分な精度を有す • 分子生物学の分野では広く利用されている 3 1 2 近縁
ClustalWの実行 • 以下の3つの配列を入力として与える >P53_HUMAN MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP DEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAK SVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPG GSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD >P53_MACMU MEEPQSDPSIEPPLSQETFSDLWKLLPENNVLSPLPSQAVDDLMLSPDDLAQWLTEDPGP DEAPRMSEAAPPMAPTPAAPTPAAPAPAPSWPLSSSVPSQKTYHGSYGFRLGFLHSGTAK SVTCTYSPDLNKMFCQLAKTCPVQLWVDSTPPPGSRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYSDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENFRKKGEPCHQLP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPA GSRAHSSHLKSKKGQSTSRHKKFMFKTEGPDSD >P53_PLAFE MMDEQGLDGMQILPGSQDSFSELWASVQTPSIATIAEEFDDHLGNLLQNGFDMNLFELPP EMVAKDSVTPPSSTVPVVTDYPGEYGFQLRFQKSGTAKSVTSTFSELLKKLYCQLAKTSP VEVLLSKEPPQGAVLRATAVYKKTEHVADVVRRCPHHQTEDTAEHRSHLIRLEGSQRALY FEDPHTKRQSVTVPYEPPQLGSETTAILLSFMCNSSCMGGMNRRQILTILTLETPDGLVL GRRCFEVRVCACPGRDRKTDEESSTKTPNGPKQTKKRKQAPSNSAPHTTTVMKSKSSSSA EEEDKEVFTVLVKGRERYEIIKKINEAFEGAAEKEKAKNKVAVKQELPVPSSGKRLVQRG ERSDSD
ClustalWの実行結果 P53_HUMAN .MEEPQSDPS VEPPLSQETF SDLWKLLPEN NVLSPLPSQA MDDLMLSPDD P53_MACMU .MEEPQSDPS IEPPLSQETF SDLWKLLPEN NVLSPLPSQA VDDLMLSPDD P53_PLAFE MMDEQGLDGM QILPGSQDSF SELWASVQTP SIATIAEEFD DHLGNLLQNG P53_HUMAN IEQWFTEDPG PDEAPRMPEA APPVAPAPAA PTPAAPAPAP SWPLSSSVPS P53_MACMU LAQWLTEDPG PDEAPRMSEA APPMAPTPAA PTPAAPAPAP SWPLSSSVPS P53_PLAFE FDMNLFELP. .......... .......... ..PEMVAKDS VTPPSSTVPV P53_HUMAN QKTYQGSYGF RLGFLHSGTA KSVTCTYSPA LNKMFCQLAK TCPVQLWVDS P53_MACMU QKTYHGSYGF RLGFLHSGTA KSVTCTYSPD LNKMFCQLAK TCPVQLWVDS P53_PLAFE VTDYPGEYGF QLRFQKSGTA KSVTSTFSEL LKKLYCQLAK TSPVEVLLSK P53_HUMAN TPPPGTRVRA MAIYKQSQHM TEVVRRCPHH ERCSDSDGLA PPQHLIRVEG P53_MACMU TPPPGSRVRA MAIYKQSQHM TEVVRRCPHH ERCSDSDGLA PPQHLIRVEG P53_PLAFE EPPQGAVLRA TAVYKKTEHV ADVVRRCPHH QTEDTAEHRS ...HLIRLEG P53_HUMAN NLRVEYLDDR NTFRHSVVVP YEPPEVGSDC TTIHYNYMCN SSCMGGMNRR P53_MACMU NLRVEYSDDR NTFRHSVVVP YEPPEVGSDC TTIHYNYMCN SSCMGGMNRR P53_PLAFE SQRALYFEDP HTKRQSVTVP YEPPQLGSET TAILLSFMCN SSCMGGMNRR P53_HUMAN PILTIITLED SSGNLLGRNS FEVRVCACPG RDRRTEEENL RK.....KGE P53_MACMU PILTIITLED SSGNLLGRNS FEVRVCACPG RDRRTEEENF RK.....KGE P53_PLAFE QILTILTLET PDGLVLGRRC FEVRVCACPG RDRKTDEESS TKTPNGPKQT P53_HUMAN PHHELPPGST KRALPNNTSS SPQPKKKPLD GEYFTLQIRG RERFEMFREL P53_MACMU PCHQLPPGST KRALPNNTSS SPQPKKKPLD GEYFTLQIRG RERFEMFREL P53_PLAFE KKRKQAPSNS APHTTTVMKS KSSSSAEEED KEVFTVLVKG RERYEIIKKI P53_HUMAN NEALELKDAQ AGKEPGGSRA HSSHLKSKKG QSTSRHKKLM FKTEGPDSD P53_MACMU NEALELKDAQ AGKEPAGSRA HSSHLKSKKG QSTSRHKKFM FKTEGPDSD P53_PLAFE NEAFEGAAEK E.......KA KNKVAVKQEL PVPSSGKRLV QRGERSDSD CLUSTALW Result GenomeNet CLUSTALW Server (Kyoto Center) on Mon Nov 17 17:57:39 JST 2003 ------------------------------------------------------------------------ CLUSTAL W (1.81) Multiple Sequence Alignments Sequence type explicitly set to Protein Sequence format is Pearson Sequence 1: P53_HUMAN 393 aa Sequence 2: P53_MACMU 393 aa Sequence 3: P53_PLAFE 366 aa Start of Pairwise alignments Aligning... Sequences (1:2) Aligned. Score: 95.6743 Sequences (1:3) Aligned. Score: 36.8852 Sequences (2:2) Aligned. Score: 100 Sequences (2:3) Aligned. Score: 36.3388 Sequences (3:2) Aligned. Score: 36.3388 Sequences (3:3) Aligned. Score: 100 Guide tree file created: [clustalw.dnd] Start of Multiple Alignment There are 2 groups Aligning... Group 1: Sequences: 2 Score:6483 Group 2: Sequences: 3 Score:2625 Alignment Score 4129 GCG-Alignment file created [clustalw.msf] ( P53_HUMAN:0.01890, P53_MACMU:0.02436, P53_PLAFE:0.61225); PileUp MSF: 399 Type: P Check: 1612 .. Name: P53_HUMAN oo Len: 399 Check: 9724 Weight: 25.0 Name: P53_MACMU oo Len: 399 Check: 9998 Weight: 26.5 Name: P53_PLAFE oo Len: 399 Check: 1890 Weight: 48.4 // 系統樹