370 likes | 478 Views
タンパク質間相互作用予測システム. 京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室. タンパク質相互作用. タンパク質は他の物質(タンパク質を含む)と結合(相互作用)すると、その機能が変化する。 タンパク質の役割の例として次がある。 遺伝子からのタンパク質生成量の制御 化学反応の触媒 食物からエネルギーを取り出す. タンパク質生成の制御. タンパク質. プロモータ領域に 付くことが出来ない. DNA. プロモータ領域. 遺伝子. タンパク質相互作用. プロモータ 領域に付いて , 遺伝子からの タンパク質 生成を補助する.
E N D
タンパク質間相互作用予測システム 京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室
タンパク質相互作用 • タンパク質は他の物質(タンパク質を含む)と結合(相互作用)すると、その機能が変化する。 • タンパク質の役割の例として次がある。 • 遺伝子からのタンパク質生成量の制御 • 化学反応の触媒 • 食物からエネルギーを取り出す.
タンパク質生成の制御 タンパク質 プロモータ領域に 付くことが出来ない. DNA プロモータ領域 遺伝子 タンパク質相互作用 プロモータ 領域に付いて, 遺伝子からの タンパク質 生成を補助する. 遺伝子からの タンパク質 生成の制御 DNA 遺伝子 プロモータ領域
NH2 NH2 O O O O H H O O C C H H C C C C H H C C C C H H C C H H H H H H H H 化学反応の触媒 タンパク質 化学反応が起きない. タンパク質相互作用 酵素として, 化学反応を促進する.
タンパク質相互作用の予測 タンパク質 アミノ酸配列 特徴的な部分配列
InterPro ドメイン • 特徴的な部分配列として、InterPro データベースに登録してあるドメインを使用する。 ドメイン ドメイン
タンパク質相互作用の予測 相互作用する組. 相互作用しない組. ?
タンパク質相互作用の予測 相互作用する組. 相互作用しない組.
相互作用の確率モデル (1/2) • モデル (Deng et al., 2002) • 2つのタンパク質が相互作用する。 少なくとも1つのドメインのペアが相互作用する。 • ドメイン間の相互作用は互いに独立とする。 D3 D1 P1 P2 D2 D2 D4
相互作用の確率モデル (2/2) • : タンパク質 Pi、Pjが相互作用する事象。 • : ドメイン Dm、Dnが相互作用する事象。 • : ドメインのペア (Dm ,Dn)が、タンパク質のペア PiXPjに含まれる。
関連研究 • 入力: • 相互作用すると観測されたタンパク質のペアの集合(正例)。 • 相互作用しないと観測されたタンパク質のペアの集合(負例)。 • 出力: すべてのドメインのペアDm、Dnに対して、それらの相互作用の確率 Pr(Dmn=1)。
アソシエーション法(Sprinzak et al., 2001) • 相互作用するタンパク質ペアの割合より推定。 • :ドメインペア (Dm, Dn)を含む、相互作用するタンパク質ペアの数。 • :ドメインペア (Dm, Dn)を含むすべてのタンパク質ペアの数。
EM 法 (Deng et al.,2002) • 観測データ {Oij={0,1}} を上のモデルで得る確率(尤度 L)。 • EMアルゴリズムを適用し、L を最大化することで、Pr(Dmn=1) を推定する。
Yeast 2 Hybrid 実験データ • 既存の手法(アソシエーション、EM法)は、 2値データ(相互作用するかしないか)のみを使用。 • 実験によって異なる結果。 • Ito et al. (2000, 2001) • Uetz et al. (2001) • 数値データを使う手法を開発。
数値データ • Ito et al. (2000,2001) • 同じタンパク質のペアについて、何度も同じ実験が繰り返される。 • IST (Interaction Sequence Tag) • 多数回の実験のうち、相互作用が観測された数。 • 閾値で切ることで、2値データを得ることができる。
EM 法を数値データにそのまま応用するのは困難。 線形計画法による解法。 2値データ LPBN 組み合わせ法 LPEM EMLP SVM法 数値データ ASNM LPNM 提案手法
LPBN (1/2) • 「相互作用する」ことの線形不等式への変換。
LPBN (2/2) • LPBN 線形計画問題
組み合わせ法 • LPEM 法 • LPBN 法の結果を初期値として、EM 法を実行する。 • EMLP 法 • EM 法の結果からあまりずれない範囲で LPBN 法の解を実行。LPBN 線形計画問題に以下の不等式制約を追加する。
SVM 法 • 特徴ベクトル(タンパク質のペア) • 各要素はそれぞれドメインペアがあるかどうか。 • 線形カーネルを使う。 テストデータ マージン
タンパク質間相互作用の強度 • 同じタンパク質のペアについて、何度も同じ実験が繰り返される。 • 相互作用の強度ρij: タンパク質ペア (Pi,Pj) について、相互作用が観測された数の割合。 • Kij : タンパク質ペア (Pi,Pj) について、相互作用が観測された数。 • Mij : タンパク質ペア (Pi,Pj) に対する全実験回数。
LPNM (1/2) • タンパク質ペアが相互作用する確率 Pr(Pij=1) と強度ρijの差を線形計画法を使い最小化する。
LPNM (2/2) • LPNM 線形計画問題
ASNM • 2値データ用のアソシエーション法を数値データ用に修正。 • 2値データ(Sprinzak et al., 2001)では、
2値データに対する計算機実験 • DIP データベース (Xenarios et al., 2002) • タンパク質のペア 1767個を正例として使用。 • 学習に 2/3、テストに 1/3を使用。 • 計算機環境 • Xeon 2.8 GHz • 線形計画問題の求解に使ったプログラム: loqo
学習データについての結果(2値データ) EM Association LPBN SVM
テストデータについての結果(2値データ) EM EMLP LPEM SVM Association
数値データに対する計算機実験 • YIP データベース (Ito et al., 2001, 2002) • IST (Interaction Sequence Tag) • タンパク質のペア数:1586 • 学習に 4/5、テストに 1/5を使用。 • 計算機環境 • Xeon 2.8 GHz • 線形計画問題の解法器: lp_solve
テストデータについての結果(数値データ) ASNM LPNM EM Association
テストデータについての結果(数値データ) • LPNM 法で最良の結果。 • EM 法、アソシエーション法は Pr(Pij=1)を 0か1に分類しようとする。
理論的成果 • 問題 • 「正例のうち、 を満たすの個数+ 負例のうち、 を満たすの個数」を最大化。 • 完全に分離できるなら多項式時間。 • 完全に分離できない場合はNP困難。 • 良い近似を得ることも困難(MAXSNP困難)。
まとめ • タンパク質ペア間の強度を予測する問題を提案し、線形計画法による解法を開発した。 • 提案手法 • 2値データ • LPBN, LPEM, EMLP • SVM法 • 数値データ • ASNM • LPNM • LPNM で良好な結果を得た。
タンパク質間相互作用予測システム • ドメイン間相互作用の確率 Pr(Dmn=1) を上の各手法を使って推定。 • 推定したPr(Dmn=1) を用いて、上の確率モデルより、知りたいタンパク質間の相互作用の確率を推定する。
タンパク質名 (swissprot データベース) タンパク質に含まれるドメイン名 (InterPro データベース) タンパク質のアミノ酸配列 (FASTA 形式)
大学院生募集(修士、博士) • 京都大学大学院 情報学研究科 知能情報学専攻 バイオ情報ネットワーク分野 • 入試 • 2004年2月(博士) • 2004年8月(修士、博士) • 専攻のホームページ • http://www.i.kyoto-u.ac.jp/~ist/index.html • 研究室ホームページ • http://www.bic.kyoto-u.ac.jp/takutsu/index_J.html • 研究室の見学を随時受付けています。 • E-mail : takutsu@kuicr.kyoto-u.ac.jp