280 likes | 472 Views
監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究. 研究生 : 鍾翔航 指導教授 : 李俊宏博士. Outlines. Introduction goal Related Techniques Experiments Results & Analyses Conclusions Future Work Data integration. Introduction. 傳統檢驗法 預培養 (preculture) 選擇性培養基培養 (selective medium culture) 生化型鑑定 (biotype test)
E N D
監督式學習與非監督式學習為主的資料探勘技術應用於癌症基因表現資訊之研究監督式學習與非監督式學習為主的資料探勘技術應用於癌症基因表現資訊之研究 研究生:鍾翔航 指導教授:李俊宏博士
Outlines • Introduction • goal • Related Techniques • Experiments • Results & Analyses • Conclusions • Future Work • Data integration
Introduction • 傳統檢驗法 • 預培養 (preculture) • 選擇性培養基培養(selective mediumculture) • 生化型鑑定 (biotype test) • 血清型鑑定(Serotype test) • DNA 探針 • PCRfingerprinting • multiplex-PCR • DNA定序 • PCR-RFLP • gene-specific probehybridization • ribotyping • microarray
Goal • 由於微陣列晶片靈敏度高導致準確度下降 • BLAST(Basic Local Alignment Search Tool)同源性比對,northern blotting和RT-PCR進行驗證。 • 只靠微陣列晶片就能獲得可信的成果,對基因分析、解讀將會是一個很大的進步。
Related Techniques • 手工分類法 • 非監督聚類法 • 配對平均連鎖聚類分析(K -mean ) • 混合聚類法 • 通過將每一數據點傅立葉變換尋找那些表達呈週期性變化的基因,比如細胞週期涉及的基因
Data Pre-Processing • Gene Selection • Stanford NCI60 Cancer Microarray Project • 9712 gene,2549 named • RPL3、SOD2、CDC42、FN1(lung carcinoma) • 正規化(去除螢光染料之背景干擾) Raw Log Ratio = log10 ( Rf – Rb ) - log10 ( Gf – Gb )
SVMs Classifiers Deciding • Deciding 9712 gene Kernel Function SVM Classifier Decision Function W Output Decision Value
Results & Analyses (SVMs -1) SVM of Ribosomal protein L3(60436) SVM of Ribosomal protein L3(376861) SVM of Ribosomal protein L3(256323)
Results & Analyses (SVMs -2) SVM of Ribosomal protein L3(60436)(376861) SVM of Ribosomal protein L3(60436)(256323) SVM of Ribosomal protein L3(376861)(256323)
Results & Analyses (SVMs -3) SVM of Ribosomal protein L3(60436)(376861)(256323)
k-NN Classifiers Deciding • Deciding 21 gene k-NN Classifier Decision Function Output Decision Value
Results & Analyses (k-NN) k-NN of Ribosomal protein L3(60436) k-NN of Ribosomal protein L3(376861) k-NN of Ribosomal protein L3(256323)
SOM Cluster Deciding • Deciding 9712 gene Number of Cluster SOM Cluster Decision Function Output Decision Value
Results & Analyses (SOM -1) SOM of Ribosomal protein L3(60436) SVM of Ribosomal protein L3(376861)
Results & Analyses (SOM -2) SVM of Ribosomal protein L3(256323) SVM of Ribosomal protein L3(60436)(376861)
Results & Analyses (SOM -3) SVM of Ribosomal protein L3(60436)(256323) SVM of Ribosomal protein L3(376861)(256323)
Results & Analyses (SOM -4) SVM of Ribosomal protein L3(60436)(376861)(256323)
K-Means Cluster Deciding • Deciding 9712 gene K-Means Cluster Decision Function 最大樣本點的群聚 Output Decision Value
Results & Analyses (K-Means-1) SOM of Ribosomal protein L3(60436) SVM of Ribosomal protein L3(376861)
Results & Analyses (K-Means-2) SVM of Ribosomal protein L3(256323) SVM of Ribosomal protein L3(60436)(376861)
Results & Analyses (K-Means-3) SVM of Ribosomal protein L3(60436)(256323) SVM of Ribosomal protein L3(376861)(256323)
Results & Analyses (K-Means-4) SVM of Ribosomal protein L3(60436)(376861)(256323)
Conclusions • Microarray database • Different chip • 監督式學習 • 20 hypotheses • 非監督式學習 • 階層式分群技術-聚合式、分裂式
Future Work • 非監督式學習 • global normalization v.s. local normalization • 監督式學習與ontology • 結合醫學文獻資料庫
Data integration • 將資料庫連結在一起的概念稱為「資料融合」 • 資料融合技術具有相當的挑戰性 • 原因是資料庫中充斥著錯誤與無意義的巧合 • 資料融合技術可以追溯至1970年代發展的電腦配對程式 • 美國國會在1974年通過隱私權法案,也同時授權創立了聯邦家長協尋服務 • 美國洛克希德馬丁公司 • 「戰術資料融合系統」,能夠從感測器、資料庫與其他來源即時蒐集戰場資訊,加以融合後提供給分析人員,從此「資料融合」正式成為科技新名詞