280 likes | 592 Views
マイクロアレイデータに よる 予後 予測モデル構築に おける .632+ 推定量によるエラー率 の補正 と ROC 曲線解析. 2011 年 7 月 29 日. 北海道大学 大学院 医学研究科 臨床統計 学分野. 准 教授 伊藤 陽一. はじめに. マイクロアレイとは 遺伝子発現データによる再発予測 オーバーフィッティングバイアスと クロスバリデーション法 Efron の .632+ 推定量 ROC 曲線解析. マイクロアレイとは. タンパク質の発現量の代替 指標である mRNA の 測定系. マイクロアレイとは. cDNA マイクロアレイの種類
E N D
マイクロアレイデータによる予後予測モデル構築における.632+推定量によるエラー率の補正とROC曲線解析マイクロアレイデータによる予後予測モデル構築における.632+推定量によるエラー率の補正とROC曲線解析 2011年7月29日 北海道大学 大学院医学研究科 臨床統計学分野 准教授伊藤陽一 SASユーザー総会2011 @ 神戸国際会議場
はじめに • マイクロアレイとは • 遺伝子発現データによる再発予測 • オーバーフィッティングバイアスとクロスバリデーション法 • Efronの.632+推定量 • ROC曲線解析 SASユーザー総会2011 @ 神戸国際会議場
マイクロアレイとは タンパク質の発現量の代替指標であるmRNAの測定系 SASユーザー総会2011 @ 神戸国際会議場
マイクロアレイとは • cDNAマイクロアレイの種類 • DNA Chip(アフィメトリックス社) 半導体技術を応用した測定系 • cDNAマイクロアレイ (イルミナ社、アジレント社など)高密度なアレイ(遺伝子数:数千から数万) SASユーザー総会2011 @ 神戸国際会議場
DNA Chip 菅野純夫編 ゲノム医科学がわかる 羊土社 p.60 SASユーザー総会2011 @ 神戸国際会議場
DNA Chip • 光化学合成によるオリゴヌクレオチド合成法 SASユーザー総会2011 @ 神戸国際会議場
cDNAマイクロアレイ • 二蛍光標識法 SASユーザー総会2011 @ 神戸国際会議場
Cy5 Cy5 Cy5 Cy5 Cy5 Cy5 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 Cy3 二蛍光標識法 SASユーザー総会2011 @ 神戸国際会議場
遺伝子発現データ 遺伝子2 遺伝子m 遺伝子1 ・・・ PtID1 ・・・ PtID2 ・・・ ・・・ ・・・ ・・・ ・・・ PtIDn ・・・ PtIDiの遺伝子発現プロファイル 再発の有無の予測 SASユーザー総会2011 @ 神戸国際会議場
遺伝子発現データによる再発予測の問題点 • オーバーフィッティング • 遺伝子数>>患者数なので、遺伝子に再発を予測する能力がなくても、100%予測できるモデルができてしまう • 補正の必要性 • 構築した予測モデルが、新たな対象集団において、どの程度の予測能力を持つのかを評価する必要がある • 補正方法 • 様々なクロスバリデーション法 SASユーザー総会2011 @ 神戸国際会議場
クロスバリデーション法 • Leave-One-Out Cross Validation; LOOCV • 対象者を1名除き、残りの対象者でモデルを構築構築したモデルで、除いた対象者の再発を予測この操作を全ての対象者に対して行い、平均を取る • Leave-One-Out Bootstrap Estimate • 復元抽出で対象者数と同数のサンプルでモデル構築(重複を許したサンプリング; Bootstrap Sampling)構築したモデルで、未抽出の対象者の再発を予測この操作を繰り返して、平均を取る SASユーザー総会2011 @ 神戸国際会議場
予測モデルの構築方法 Cross Validation Level 重回帰モデルを構築する ための候補遺伝子を選択 する(t検定、単回帰など) Feature Selection 予測のための重回帰 モデルを構築する (重回帰、変数選択法) Model Construction in-sample error 構築したモデルで再発 予測を行い、性能を評価 する Prediction After Gene Selection AllProcess None SASユーザー総会2011 @ 神戸国際会議場
オーバーフィッティングバイアス 遺伝子数6000 患者数20 で ランダムに データを発生 患者を2群に 分けて、群を 予測する 期待される誤分類患者数は10 Cross Validation Levelによる比較 (Simon R. et. al. J Natl Cancer I. 2003;95(1):14-8.) SASユーザー総会2011 @ 神戸国際会議場
.632+推定量 Leave-One-Out Bootstrap Estimate (Err(1))では、一人以上の対象者が重複し、重複した対象者を重視したモデルとなるため、LOOCVと比較してエラー率は高めになる Efronの.632推定量 そこで、Efron(1983)はin-sample error (err)と組み合わせる推定量を提案した Err(.632) = .368×err + .632×Err(1) SASユーザー総会2011 @ 神戸国際会議場
.632の理由 復元抽出の際に、ある対象者が少なくとも1回以上抽出される確率は、サンプルサイズnが大きいとき以下のようになる。 SASユーザー総会2011 @ 神戸国際会議場
.632+推定量 .632推定量は、極めてオーバーフィットが強いときに、エラー率を過少評価するという問題がある Efron(1997)は、この過少評価を補正する.632+推定量を提案した サンプルにおける観測再発割合を、予測モデルにおける予測再発割合をとすると、無情報エラー率は以下のようになる 相対オーバーフィッティング率を以下のように定義する このを用いて.632+推定量は以下のように定義される SASユーザー総会2011 @ 神戸国際会議場
予測モデルの.632+推定量による評価 Cross Validation Level Bootstrap Sampling 復元抽出によるサンプリング 重回帰モデルを構築するための候補遺伝子を選択する 繰り返し 50回 Feature Selection 予測のための重回帰モデルを構築する Model Construction in-sample Error (err) 構築したモデルで復元抽出され なかった対象者の再発を予測 エラー率を推定 Prediction None AllProcess 繰り返しに関して平均をとる(Err(1)) .632+推定量の推定 Evaluation SASユーザー総会2011 @ 神戸国際会議場
適用事例 子宮体癌60例における癌細胞の遺伝子発現データ遺伝子数 : 18,401再発割合 : 22/60 = 36.67% Feature selectionロジスティック単回帰 (p<0.001) Model Constructionロジスティック重回帰 (ステップワイズ変数選択p<0.05) Prediction&EvaluationROC曲線を描くために、再発症例(感度)、非再発症例(特異度)を分けて集計 SASユーザー総会2011 @ 神戸国際会議場
In-sample errorにおけるROC曲線 AUC=0.953 SASユーザー総会2011 @ 神戸国際会議場
Leave-One-Out Bootstrap EstimateにおけるROC曲線 AUC=0.648 SASユーザー総会2011 @ 神戸国際会議場
.632推定量におけるROC曲線 AUC=0.758 SASユーザー総会2011 @ 神戸国際会議場
.632+推定量におけるROC曲線 AUC=0.700 SASユーザー総会2011 @ 神戸国際会議場
解析プログラムにおける工夫 Bootstrapサンプルは、対象者IDの乱数発生による選択されなかった対象者の結果変数を欠測にして、モデル構築から除外、エラー率評価用に別名に変更 ロジスティック単回帰(18401回)の実行を早くするため、ログの出力を抑制proc printto log=_dummy_;run; 構築したモデルによって、再発確率を予測。In-sample errorと各Bootstrapサンプルを連結し、予測再発確率で並べ替え。ROC曲線を引くための閾値とする。 SASユーザー総会2011 @ 神戸国際会議場
Leave-One-Out Bootstrapにおける予後予測モデル Bootstrapサンプルごとに、構築される予後予測モデルが変わることがあり得る その場合、どの予後予測モデルを採用するかは諸説あり Simonら(2003)は、In-sample errorのモデルを採用 Michielsら(2005)は、Bootstrapサンプルでより多く選ばれた遺伝子によるモデルを採用 SASユーザー総会2011 @ 神戸国際会議場
他のデータへの適用 本解析プログラムを適用するための、データ構造は、マイクロアレイデータに典型的なデータ構造 生存時間など他の形式の結果変数にも、解析プログラムのプロシジャを変更すれば適用可能 感度、特異度を計算するため、再発と非再発で分けて集計していることで精度が落ちている可能性あり、ブートストラップサンプルの回数を増した方が良いかもしれない SASユーザー総会2011 @ 神戸国際会議場
参考文献 1 Simon R. Radmacher MD. Dobbin K. McShane LM. Pitfalls in the use of DNA microarray data fordiagnostic and prognostic classification. Journal of the National Cancer Institute. 95(1):14-8, 2003. 2 Efron B. Estimating the error rate for a prediction rule: Improvement on cross-validation. Journalof the American Statistical Association. 78(382):316-31, 1983. 3 Efron B. Tibshirani R. Improvements on cross-validation: The .632+ bootstrap method. Journal ofthe American Statistical Association. 92(438):548-60, 1997. 4 Breiman L. Friedman J. Olshen R. Stone C. Classification and Regression Trees, Pacific Grove,CA: Wadsworth, 1984. 5 Michiels S. Koscielny S. Hill C. Prediction of cancer outcome with microarrays: a multiple randomvalidation strategy. Lancet. 365(9458):488-92, 2005. SASユーザー総会2011 @ 神戸国際会議場