280 likes | 420 Views
基因微陣列分類系統. 組 員 : 陳昭瑋 李進旗 何榮倫 陳勇達. 指導教授 : 張玉盈 教授. Outline. 目的 系統簡介 演算法說明 DEMO. 2. 目的. 生物資訊是最近非常熱門的一個研究方向 生物資訊其最終目標是要完全了解人類所有基因的秘密。 生物資訊中,微陣列 (microarray) 是用來了解基因表現的重要工具。 藉由針對微陣列設計分類系統,可以幫助 醫學界更精準地判斷基因相關的疾病。. 3. 系統簡介. 利用微陣列設計分類系統 微陣列 (Microarray) 二維陣列
E N D
基因微陣列分類系統 組 員: 陳昭瑋 李進旗 何榮倫 陳勇達 指導教授: 張玉盈 教授
Outline • 目的 • 系統簡介 • 演算法說明 • DEMO 2
目的 • 生物資訊是最近非常熱門的一個研究方向 • 生物資訊其最終目標是要完全了解人類所有基因的秘密。 • 生物資訊中,微陣列(microarray)是用來了解基因表現的重要工具。 • 藉由針對微陣列設計分類系統,可以幫助 醫學界更精準地判斷基因相關的疾病。 3
系統簡介 • 利用微陣列設計分類系統 • 微陣列(Microarray) 二維陣列 一維:基因 一維:條件 • 陣列所記錄的值,即某個基因在某個condition下所表現的程度。 4
Classification • Classification是從兩組已知分類結果的資料中,找出能夠用來區分分類的classifier,之後便利用此classifier來預測新資料的所屬分類。 • 本專題使用的classifier為eJEP。 TEST A 組 TEST的分類結果 classifier B 組 5
演算法 • Preprocessing(將輸入資料轉換成有用資料) • P-tree(Pattern tree) Construction and merge • Using the P-tree to Mine eJEPs (Essential Jumping Emerging Patterns) • Compute similarity by score function • 將輸入資料分類到應屬的Class 6
Preprocessing • Normal Data • Cancer Data 7
Normal Data Normal Class(Class D1) Cancer Data Cancer Class(Class D2) 8
Preprocessing Class D1 D1 Class D2 D2 9
P-tree Construction and merge • A pattern tree (P-tree) is an ordered multiway tree structure. • The ordered is item’s supports-ration-descending order. • Nodes will be merged, which ensures the complete set of eJEPs are generated. 10
P-tree Construction and merge data class 1={{a,c,d,e},{a},{b,e},{b,c,d,e}}data class 2={{a,b},{c,e},{a,b,c,d},{d,e}}the supports-ratio-descending order: e > a > b > c >d Data class 1={{e,a,c,d},{a},{e,b},{e,b,c,d}} Data class 2={{a,b},{e,c},{a,b,c,d},{d,e}} Construct the P-tree 11
eJEP • eJEP定義 : a b可以互換 • 根據定義我們就可以找出eJEP • 這裡定義μ=1 18
eJEP: {e,a} (1:0) {e,b} (2:0) {e,c,d} (2:0) {a,b} (0:2) 19
Similarity • Score Function • where eJEP(Ci) are all the eJEPs in Ci • The eJEPs-Classifier determines the class label as the class where s obtains the largest Ci • SUPP(X) 代表X在Class中出現次數 20
Class1(D1) Class2(D2) eJEPs in Class2(D2) eJEPs in Class1(D1) Testing Data s = {e, a, b, c} score(D1) = supp( {e, a} ) +supp( {e, b} ) =1+2=3 score(D2) = supp( {a,b} )=2 Thus, the class label of Data s is D1 21
DEMO前的說明 Demo用的microarray資料是急性白血病的分類,有: (1) 急性髓細胞白血病(AML) (2) 急性淋巴細胞白血病(ALL) • 我們要由系統來偵測出所輸入資料的急性白血病分類,AML 或者 ALL。 • Microarray資料來源: http://www.broad.mit.edu/ 22
視窗介面 23