260 likes | 618 Views
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. 内容. 遺伝子発現データ解析 遺伝子ネットワーク推定 腫瘍細胞分類 スケールフリーネットワーク. 遺伝子発現データの解析. DNA チップ・ DNA マイクロアレイ 多数の遺伝子の発現量を同時測定可能 遺伝子発現データ解析 クラスタリング どの遺伝子が似ているか? 遺伝子ネットワーク推定 どの遺伝子がどの遺伝子を制御しているか? 腫瘍細胞分類 腫瘍のより細かな分類、抗がん剤の適切投与.
E N D
分子生物情報学(7)遺伝子発現データの情報解析法スケールフリーネットワーク分子生物情報学(7)遺伝子発現データの情報解析法スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
内容 • 遺伝子発現データ解析 • 遺伝子ネットワーク推定 • 腫瘍細胞分類 • スケールフリーネットワーク
遺伝子発現データの解析 • DNAチップ・DNAマイクロアレイ • 多数の遺伝子の発現量を同時測定可能 • 遺伝子発現データ解析 • クラスタリング • どの遺伝子が似ているか? • 遺伝子ネットワーク推定 • どの遺伝子がどの遺伝子を制御しているか? • 腫瘍細胞分類 • 腫瘍のより細かな分類、抗がん剤の適切投与
ネットワークモデル・推定手法 • ブーリアンネットワーク • 微分方程式系(線形・非線形) • ニューロ型モデル • 時系列解析 • ベイジアンネットワーク • グラフィカルモデリング
状態遷移 • 状態遷移 • 初期状態が与えられれば、状態遷移表より、どのような変化がおきるかがわかる • アトラクター:同じ状態系列が繰り返される • 011 ⇒ 010 ⇒ 101 ⇒ 010 ⇒ 101 ⇒ … • 111 ⇒ 110 ⇒ 100 ⇒ 000 ⇒ 001 ⇒ 001 ⇒ 001 ⇒ …
ブーリアンネットワークの同定 • 時刻 t, t+1の状態の組(遷移表の一部) ⇒ 例 • 例に無矛盾なネットーワークが一意かを判定 • 例は発現パターンの変化に相当
入次数 • ネットワーク形状に制約が無い場合 ⇒状態遷移表の全部の行( )行が必要 • 入次数が定数 K 以下 ⇒(全部で2n 行あるうちの)たったO(log n)行で十分
ベイジアンネットワーク • 条件付き確率で知識やネットワークを表現 • AI分野で数多くの研究 • グラフィカルモデリングと深い関係 • ブーリアンネットワークとは異なり、時間を陽には取り扱わない
線形微分方程式系の推定(D’haeseleer et al. 1999) • 微分方程式を離散化 ⇒ 連立一次方程式 ⇒ 回帰分析 • 時系列データが既知なら、Xi (t)やΔt などは定数を考えることができる
S-system 例
実データ解析における問題点 • 時間間隔の長い(数十分以上)、数点から数十点程度のデータしか利用できない • 正確な発現量を測定できるわけではなく、 同じ測定を行っても数十%の差 • 同じような時間変化を示す遺伝子が多い (数百が同じような変化)
遺伝子発現データを用いた腫瘍細胞分類 • 発現データを観測することにより、腫瘍細胞の詳細な分類を行う • 抗がん剤の適切な投与などに応用できる可能性
Eric Landerらの研究I (1999) • 急性白血病の分類 • 6800個程度の遺伝子の発現データを利用 • 72サンプル • ALL (acute lymphoblastic leukemias) • AML (acute myeloid leukemias)
Eric Landerらの研究II • 急性白血病のデータ(Golub et al, 1999) • 38+34の患者の6817遺伝子の発現量を AffymetrixのDNAチップで計測 • ALL と AML のクラス分け • B-CELL ALL と T-CELL ALL のクラス分け • 多数決により決定(ただし、差が少ない場合には判定不能とする)
Eric Landerらの研究III • クラス予測 • 与えられたデータがどの既知クラスに入るかを推定 • (重み付き)多数決により推定 • クラス発見 • 新たな腫瘍のタイプを発見 • 自己組織化マップ(クラスタリング技法の一種)を利用 • Informative Gene • クラス予測に有用な遺伝子セット • クラス分けとの相関に基づき選択 • Feature Selection (AI分野で数多くの研究)
サポートベクタマシン • 分類のための学習方式 • 特徴 • 正負の例(トレーニングデータ)からマージンを最大化するパラメータを学習 • 過学習を起こしにくい • 様々なカーネルを利用可能 • 二次計画法を利用(最適性の保証) • バイオインフォマティクスにおいても既に様々な応用
SVMによる腫瘍細胞分類(クラス予測) • ALLを正例、AMLを負例として与えて、超平面を学習 • 新たなサンプルがきたらば、超平面のどちらにあるかを判定し、ALLかAMLかを予測
発現データからの細胞分類 • 実際には発現量はアナログ値 • (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0 ⇒ALL と推定
スケールフリーネットワーク • Barabasi らが1999年頃に発見。以降、数多くの研究 • 特徴: 有力な頂点(ハブ)に多くの頂点が連結 • 現実のネットワークの多くが該当 • 代謝ネットワーク、タンパク質相互作用、WWW、電力網、... • 次数 kの頂点の個数が k-γに比例(べき乗則) • ランダムな場合(ポアソン分布: e-λλk/k!)と大差
グラフ ・点と線で構造を表す グラフと生物情報ネットワーク 代謝ネットワーク (KEGG)
スケールフリーネットワーク 頂点数 頂点数 ∝ (次数)-3 次数
m0=4 m=3 スケールフリーネットワークの構成法(1) • Preferential Attachment[Barabasi & Albert 1999] • 別名: Rich-get-richer モデル • 構成法(ほぼ、k -3 のべき乗則従うネットワークを生成) • m0 個の頂点から成るグラフを構成する • 以下のステップを必要なだけ繰り返す • 現在のグラフに新たな頂点 vを追加する • vから既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺を張る(全部で m 本の辺を張る)
スケールフリーネットワークの構成法(2) • Hierarchical Scale-Free Network [Ravasz, Barabasi et al. 2002] • 別名:Deterministic Scale-Free Network • 再帰的に構成 • フラクタル的
参考文献 • 遺伝子ネットワーク推定 • 北野 編: システムバイオロジーの展開、シュプリンガー・フェアラーク東京 (2001) • 発現データを用いた細胞分類 • Golub et al.: Science, 286, 531 (1999) • サポートベクタマシン • Cristianini, Shawe-Taylor: Support Vector Machines, Cambridge Univ. Press (2000) • スケールフリーネットワーク • A.-L. Barabasi and Z.N. Oltvai, Nature Genetics Reviews 5, 101 (2004). • Barabasi のホームページ: http://www.nd.edu/~alb/