280 likes | 518 Views
守護健康 增生少數合成技術結合參數優化之支援向量機用於卵巢癌預測. 指導教授 : 陳牧言老師 蔡孟勳老師 班級 : 資管研一 姓名 : 林佩樺 學號 : 1802b101 日期 : 2014/05/29. 大綱. 前言 文獻探討 研究模型 實驗 結果 結論. 前言. 前言. 研究動機 找出卵巢癌各期別的關鍵基因 利用找出的各期別關鍵基因建構預測模型 研究目的
E N D
守護健康增生少數合成技術結合參數優化之支援向量機用於卵巢癌預測守護健康增生少數合成技術結合參數優化之支援向量機用於卵巢癌預測 指導教授: 陳牧言老師 蔡孟勳老師班級:資管研一姓名:林佩樺學號:1802b101 日期:2014/05/29
大綱 • 前言 • 文獻探討 • 研究模型 • 實驗結果 • 結論
前言 • 研究動機 • 找出卵巢癌各期別的關鍵基因 • 利用找出的各期別關鍵基因建構預測模型 • 研究目的 • 透過該模型提升預測卵巢癌各期別之準確性 • 未來應用在生物科技領域之癌症篩檢 • SMOTE增生少數合成技術(Synthetic Minority Oversampling Technique)結合參數優化之支援向量機(Support Vector Machines)用於卵巢癌預測
SMOTE增生少數合成技術 • Chawla等學者(2002)提出 SMOTE 是一種增加樣本的技術。 • 常見的SMOTE增加樣本技術 • 1.減少多數 • 2.增加少數(本專題採用)
SMOTE增生少數合成技術 • 優點 • 改善少數類別正確率 • 可以改善整體之正確率 • 不會導致過度配適(overfitting) • 應用領域 • 各領域之不平衡樣本
仿生運算 • 觀察生物的日常生活社會行為如鳥群覓食,是一種演化式演算法。 • 優點 • 求問題最佳解 • 能快速收斂
仿生運算 • 本專題使用到的SVM之參數優化的演化式演算法 • 基因演算法(Genetic Algorithm, GA) • 粒子群優化(Particle Swarm Optimization, PSO) • 人工蜂群(Artificial Bee Colony,ABC)
參數優化之支援向量機 • 優點 • 找出SVM核心方程式中最佳的參數設定 • 提高整體模型的穩定度與準確率 • 應用領域 • 各種領域分類問題
研究流程 圖.1. 研究流程圖
資料來源 • 臺中中國醫藥大學以cDNA微陣列收集紀錄41位罹患卵巢癌的病患基因表現資料。 • 在每位病患中,用作分析的基因數9600個。 表.1. 41位病患罹患卵巢癌的期別
實驗資料集類別介紹 • 將實驗資料分為下列幾期去做比較,找出該期表現活躍基因。 表.2. 卵巢癌實驗資料集類別介紹
研究步驟-SMOTE • 利用SMOTE將原始樣本數比較少的BOT、OVCAI類別樣本數增加一倍。 表.3. 41位病患罹患卵巢癌樣本及使用SMOTE技術的樣本介紹
研究步驟-特徵選取 • 特徵選取 • INFORMATIONGAIN (Class_all) • GAINRATIO (Class_1~Class_5) • C4.5 (Class_1~Class_5) 表.4. 41位病患罹患卵巢癌樣本特徵選取技術介紹
研究步驟-建模(SMOTE) • 利用參數優化之SVM建立預測模型,將資料以7:3的比例分為訓練資料集及測試資料集。 • SMOTE+GA-SVM • SMOTE+PSO-SVM • SMOTE+ABC-SVM • SMOTE+DFABC-SVM
研究步驟-評估 • 每種方法皆利用10-fold交叉驗證 • 利用預測模型的訓練及測試資料集的準確度做模型的評估。
實驗結果-Class_all • Class_all(OVT、BOT、OVCAI、OVCAIII)的實驗結果。 • InformationGain>=1以上,共取14個基因。 表.5.使用SMOTE技術的41位病患罹患卵巢癌在Class_all實驗結果
實驗結果-Class_1 • Class_1 (BOT與其他三期之區別)的實驗結果。 • GainRatio=1,共取35個基因。 表.6.使用SMOTE技術的41位病患罹患卵巢癌在Class_1實驗結果
實驗結果-Class_2 • Class_2 (OVCAIII與其他三期區別)的實驗結果。 • GainRatio>0.8,共取2個基因。 表.7.使用SMOTE技術的41位病患罹患卵巢癌在Class_2實驗結果
實驗結果-Class_3 • Class_3 (OVT與BOT區別其他兩類)的實驗結果。 • 利用C4.5萃取出2個變數。 表.8.使用SMOTE技術的41位病患罹患卵巢癌在Class_3實驗結果
實驗結果-Class_4 • Class_4 (BOT與OVCAIII區別另外兩階段)的實驗結果。 • GainRatio>0.8。取出6個基因。 表.9.使用SMOTE技術的41位病患罹患卵巢癌在Class_4實驗結果
實驗結果-Class_5 • Class_5 (OVT區別另外三期)的實驗結果。 • 利用C4.5萃取出2個變數。 表.10.使用SMOTE技術的41位病患罹患卵巢癌在Class_5實驗結果
結論 • 可以找出各期別表現活耀之基因,可用於後續在生物領域做癌症篩檢的候選基因。 • 使用SMOTE技術比單純參數優化-SVM來的優秀。