10 likes | 418 Views
◎三種模型在內外部驗證下 -- 預測乳癌病人五年和十年存活情形之比較◎. 學生:聞中傑 指導教官:朱基銘 師. ★ 類神經網路 (ANN) 1. 平均準確率 (ACC) 部分 不分內外部驗證下,五年平均 ACC 皆比十年高。內部驗證下平均準確率高 5.74% ; 而外部驗證下,則更相差到 10.78% ,差距 接近兩倍!所以隨預測存活年數增加,內外部驗證的差距增加,更會降低外部驗證預測準確率的能力,且具有統計上顯著意義。 2. 曲線下面積 (AUC) 部分
E N D
◎三種模型在內外部驗證下--預測乳癌病人五年和十年存活情形之比較◎◎三種模型在內外部驗證下--預測乳癌病人五年和十年存活情形之比較◎ 學生:聞中傑 指導教官:朱基銘 師 ★類神經網路(ANN) 1.平均準確率(ACC)部分 不分內外部驗證下,五年平均ACC皆比十年高。內部驗證下平均準確率高5.74%;而外部驗證下,則更相差到10.78%,差距接近兩倍!所以隨預測存活年數增加,內外部驗證的差距增加,更會降低外部驗證預測準確率的能力,且具有統計上顯著意義。 2.曲線下面積(AUC)部分 五年存活預測中,內外部驗證沒有差異(0.646±0.0251≒0.619±0.0260);十年存活預測中,內部比外部明顯好(0.738±0.0316>0.660±0.0113),由圖二可知95%CI沒有交疊,故有統計上顯著性差異。 在台灣,乳癌亦為女性癌症主要死亡原因之一,根據行政院衛生署2005年統計資料顯示,我國2003年因乳癌死亡人數1339例(死亡率每十萬人口12.04人),為女性癌症死亡的第四位。且近十年左右資料探勘(Data mining)技術廣為醫學領域研究者所應用,醫療領域中希望能藉由人工智慧的資料探勘技術與方法就功能上更能夠找出可能的組合,輔助鑑別診斷以提高診斷正確率,甚至更進一步改善治療提高存活率。 圖五、存活年數五年和十年下,三種模型 內外部驗證的平均SPEC(95%SEN) 95% CI ACC 比較類神經網路、決策樹以及邏輯式迴歸三種演算法,以預測準確率、AUC(ROC曲線下面積)、固定95%敏感度來看特異度大小等三項演算法為評估指標,去針對內外部驗證(Internal/External validation),來預測五年和十年不同存活年數下的乳癌存活率,已達到輔助提升臨床醫學診斷乳癌的準確率。 • 固定95%的敏感度可以看出存活年數五年的特異度值可以達 • 到20%以上,符合模型作為預測乳癌病人存活情形應用的標 • 準[2]。 • 2. 而固定95%的敏感度在十年存活的特異度值則下降至10% • 左右,隨預測存活年數增加會有較低的特異度值。 • 3. 三種模型固定95%的敏感度的特異度值的在內外部驗證 • 資料表現有2%~5%的差異。 圖二、存活年數五年和十年下, ANN模型中內外部驗證(i/e) 的平均正確率及平均AUC ★決策樹(DT) 1.平均準確率(ACC)部分 存活達十年以上,由圖三數據顯示,所受內外部驗證影響比存活五年來的差距變小到平均ACC只差1.2%(2.73%-1.53%)。因而得知存活年數增加,內外部驗證的差距不大,且對於降低外部驗證預測準確率的能力不具統計上顯著意義。 2.曲線下面積(AUC)部分 內部驗證下,五年低於十年有0.066的曲線下面積;而外部驗證下,則平均AUC低於0.060,幾乎一樣!這說明了隨存活年數增加用決策數(DT)來預測AUC,內外部驗證皆沒有顯著性差異。 (一)資料來源: 此研究是使用美國SEER (Surveillance Epidemiology and End Results )從1973-2002年的資料庫。先從SEER中3,122,042筆女性癌症個案資料記錄及72個變項因子中進行除錯及清理後,再依存活年數達五年的篩出有64,094 筆;達十年者有19,414筆。共有18個變項,包含17個自變項與1個依變項[1]。 (二)研究方法: 以內外部驗證去建構訓練模式(表一、不同存活年數下內外部驗證所建構訓練模式),來檢驗存活年數五年及十年在不同預測模型下的準確率、AUC(曲線下面積)、SPEC(固定95%SEN),來看各個演算模型的預測成效。 (三)研究工具: Clementine7.0(圖一、Clementine7.0操作下的三種預測模型的分析方式) 討論與結論 • 不同存活年數下,內部驗證的ACC、AUC都明顯比外部驗證高,且達顯著差異[3]。 • 對於評估分析方法預測存活能力時,應該分別比較模型建構時及對外部資料進行推論預測時的ACC、AUC參數。 • 預測存活年數的長短也會降低模型推論預測外部驗證資料的通用性(External validation for generalization) 。 • 不管哪一模型的預測結果,都顯示五年的平均準確率大於十年;而五年的平均AUC小於十年,達統計上顯著意義。 • 研究中發現,五年的ROC曲線下面積(AUC)幾乎皆小於十年存活年數,這與Lundin (1999)以不同的觀測時間在類神經網路與邏輯式迴歸之間,來看乳癌患者五年、十年、十五年存活預測的結果[4]背道而馳,未來需進一步釐清。 圖三、存活年數五年和十年下, DT模型中內外部驗證(i/e) 的平均正確率及平均AUC ★邏輯式迴歸(LG) 1.平均準確率(ACC)部分 內部/外部驗證下,平均ACC差距分別為8.67%和9.64%與決策樹一樣,也沒有太大差別!可見內外部驗證的差距與決策樹一樣,並不會存活年數而增加,而降低外部驗證預測準確率的推測能力也尚未達到顯著意義。 2.曲線下面積(AUC)部分 由圖四顯示,邏輯式迴歸在五年及十年存活預測中,內外部驗證沒有差異 (五年:0.669±0.0080≒0.644±0.0129; 十年:0.602±0.0103≒0.592±0.0072) • Delen D. Predicting breast cancer survivability: a comparison of three data mining methods.Artif Intell Med. 2005 Jun;34(2):113-27. Sargent DJ.Comparison of artificial networks with other statistical approaches. Cancer 2001, 91:1636-1942. • Song JH.Comparative analysis of logistic regression and artificial neural network for computer-aided diagnosis of breast masses.Acad Radiol. 2005 Apr;12(4):487-95. • Terrin. External validity of predictive models:A comparison logistic regression,classification trees,and neural network. Journal of Clinical Epidemiology 2003;56:721-729. • M. Lundin.Artificial Neural Networks Applied to Survival Prediction in Breast Cancer.Oncology 1999;57:281-286. 圖四、存活年數五年和十年下, LG模型中內外部驗證(i/e) 的平均正確率及平均AUC 表一、不同存活年數下內外部驗證 所建構的訓練模式 圖一、Clementine7.0操作下 三種預測模型的分析方式