320 likes | 469 Views
最佳特徵選擇:乳房 X 光片腫瘤偵測 Optimal Feature Selection : The Mass Detection in Mammograms. 國立成功大學資訊工程學系 作者:于南書 報告者:鄭依貞 M98G0202 指導教授:陳定宏教授. OUTLINE. 前言 資料庫 自動分割 特徵值 特徵值選取 腫瘤偵測 實驗結果與結論. 前言 : 研究目標. 取出不同類型特徵值 讓特徵值空間 (Feature Space) 更完善 選出最佳的特徵值. 前言 : 系統架構. 資料庫. 數位影像資料庫 :
E N D
最佳特徵選擇:乳房 X 光片腫瘤偵測Optimal Feature Selection:The Mass Detection in Mammograms 國立成功大學資訊工程學系 作者:于南書 報告者:鄭依貞M98G0202 指導教授:陳定宏教授
OUTLINE • 前言 • 資料庫 • 自動分割 • 特徵值 • 特徵值選取 • 腫瘤偵測 • 實驗結果與結論
前言:研究目標 • 取出不同類型特徵值 • 讓特徵值空間 (Feature Space) 更完善 • 選出最佳的特徵值
資料庫 • 數位影像資料庫: MIASMini-Mammographic Database • 共322 張影像: 奇數→右乳X 光片 偶數→左乳X 光片 • 207 張正常組織 115 張異常組織
自動分割:Otsu臨界值分割 • 臨界值範圍[m, n],臨界值T=m,(m:最低亮度,n:最高亮度),m, n > 1 且n > m • 算出兩群集的平均值、變異數和機率分佈 • 依上述結果,計算群集內變異數(Within-class Variance)和群集間變異數(Between-classVariance)
自動分割:Otsu臨界值分割 • 選擇其中之一的群集分離的程度MCS: α 、β 、γ ,並計算出其值MCS(T) • T=T+1,並重覆步驟2,3,4直到T=n,其中當MCS(T)為最大值時,表示此臨界值T 為最佳臨界分割值
自動分割:熵臨界值分割 • 臨界值範圍[m,n],臨界值T = m,(m:最低亮度,n:最高亮度) ,m,n > 1且n > m • 計算出灰階共發生矩陣W (co-occurrence matrix) • 臨界值T分割共發生矩陣W ,計算出各區域的機率,進而求熵 背景對背景(BB) 背景對物件(BO) 物件對背景(OB) 物件對物件(OO)
自動分割:熵臨界值分割 • 由3.所得的四個區域熵,算出其區域熵HLE(T) • T = T +1,重覆3.、4.,直到T = n,其中當HLE(T)為最大值時,表示此臨界值T 為最佳臨界分割值
自動分割:形態學處理 (a) 脂肪的ROI (b) Otsu’s 分割結果 (c) Entropy Thresholding 分割結果 (d) Otsu’s 型態學修正結果 (e) Entropy Thresholding 型態學修正結果
特徵值:碎形維度 • 將原影像轉為二值影像(背景與物件) • 定義基底區塊M (basis block)的大小,M必須小於原影像的大小 • 以M為移動式視窗,對影像做條件判斷,視窗有物件類的像素總數大於1/2的M為1,反之為0 • 總視窗判斷結果總和為N(S)
特徵值:碎形維度 • 隨著S遞增,我們可以得到不同的N(S),畫出log N(s)與log(1/s)的關係圖,並求其最近似的斜率
特徵值:緊密度 • 惡性腫瘤:封閉曲線長度平方P2與區域面積A比較大 • 正常組織:封閉曲線長度平方P2與區域面積A比較小
特徵值:灰階值強度統計圖 • 根據影像每個像素的灰階值發生次數,求其不同次幕的動量 • 腫瘤組織特徵值會比正常組織大
特徵值:空間灰階相關特徵值 • 針對像素與像素之間灰階值及空間上的關係,得到共發生矩陣 • 再利用矩陣所代表的空間中灰階值強度的關聯性來做特徵值的描述
特徵值:紋路頻譜 • 利用像素點與其周圍相關的八個相鄰點的關係來做編碼 • 腫瘤影像像素點與相鄰像素點變化較劇烈;正常組織則較平緩 • V ={V0,V1,…,V8},V0:遮罩中心像素的灰階值
特徵值:紋路頻譜 • 每一個鄰點和中心點的關係,定義為紋路單元(Texture Unit, TU),TU={E1, E2, …,E8},每一紋路單元有0、1 或2 三種情況,共有6561 種組合 • 接著我們對紋路單元做順序的編碼,之後再針對整張影像算出紋路單元的統計頻率,藉此紋路特徵來描述該影像的特性
特徵值:紋路特徵編碼 • 編碼時,先將水平方向左右兩點和垂直方向上下兩點,定義為第一關聯性 • 右對角線的右上和左下的兩點以及左對角線的左上和右下兩點定義為第二關聯性 • 最後再定義關聯性的每個像素的紋路單元
特徵值:紋路特徵編碼 • 個別在第一和第二關聯性選出一組掃描方向的分類結果做組合,一共會有10 種組合
特徵值:紋路特徵編碼 • 選取第一關聯性的水平方向和第二關聯性的右上左下對角方向可得到一分類組合結果α,而選取第一關聯性的垂直方向和第二關聯性的左上右下對角方向可得到另一分類組合結果β • 將所求得的α 與β 相乘,就是代表該3×3 遮罩中心像素的紋路特徵數(Texture Feature Number, TFN)
特徵值選取:主成分分析 • 主成份分析將原始變項轉換成為一些互相獨立的線性組合變數,而此線性組合保有原變數最多的資訊 • 最主要之型態為利用求特徵值(Eigenvalue)及特徵向量(Eigenvector)之方法,過濾出佔最大變異數的型態 • 實驗的結果表示,主成份分析辨識效果較沒有修改過的原始資料選出的特徵值組合差
特徵值選取:基因演算法選取 1. 編碼:將所有特徵值編碼,令之為一個體(Chromosome) ,其bit 的值為0 時表示不被選取,為1 時表示被選取 2. 初始總體數:總體數(Population)表示為個體的總和數,總體數越大,演算法收斂速度越快,所需時間愈長
特徵值選取:基因演算法選取 3.評估函式:透過評估函式使每一個個體都會有一個評估值, 評估值的大小代表這個個體好壞 c 表示一個個體 bi表示為個體的某bit 值 μi,mass表示腫瘤 ROI 的第i 個特徵值之平均值 μi,normal 表示正常組織ROI 的第i 個特徵值之平均值 σ i,mass表示腫瘤ROI 的第i 個特徵值的變異數值 σ i,normal表示正常組織ROI 的第i個特徵值的變異數值 f(c)值越大表示此個體的特徵值組越具有分辨腫瘤與正常組織的能力
特徵值選取:基因演算法選取 4. 基因操縱:父母選擇(Parent Selection)、交配(Crossover)、突變(Mutation) • 父母選擇:機率輪盤(Roulette Wheel)機制,先求所有個體評估值之總數,然後用每一個個體評估值去除總數,代表此個體的被選擇的機率 • 交配:採用單點交配,就是先隨機選擇個體的某一bit位置,將選擇出的父母,針對他們個體的bit位置做交換(Exchange)而產生新的子代(Offspring) • 突變:採用單點突變方法,隨機選取一個bit 值,假如其值是1,則突變為0反之則突變為1
特徵值選取:基因演算法選取 5. 終止條件:可依靠使用者的偏好來選定 • 設定固定代數 • 設定評估值的期望值(只要有一個體達到此期望值即可終止) • 設定整體總體數的評估值(其個體之間的差異在小於某一值後可終止)
特徵值選取:逐步演算法選取 Step1:建造一個池(Pool),最高可容納212 個特徵值,建構完後隨機選取七個特徵值到此池子 Step2:評估池子現在擁有特徵值的效能 Step3:建立一個F-enter function,池子裡的特徵值總數小於等於13 時,則呼叫此函式,隨機選取一個未在池子裡的特徵值進去池子
特徵值選取:逐步演算法選取 Step4:建立一個F-remove function,當現在池子裡的特徵值總數大於等於7 時,則呼叫此函式,隨機選取一個在池子裡的特徵值離開池子 Step5:重複Step2、Step3 和Step4 共X 次直到收斂,則結果特徵值的數目就會落在7~13 之間
腫瘤偵測:線性辨識分析 • 採用馬氏距離法(Mahalanobis’ method)來進行二群集辨識分析 • 訓練:算出兩群集的重心 • 測試(Testing): μi:群集A或B的重心 Σ −1:聯合組內共變數矩陣 X:多維空間中的樣本矩陣(sample Matrix) 樣本DA與DB:樣本與兩不同群集重心的馬氏距離
腫瘤偵測:類神經網路 • 本實驗所採用的是監督式的學習 • 倒傳遞類神經網路(Back propagation Neural Network): 特性就是在不同層之間的節點會彼此的完全連接,而其非線性轉換函式,最常見的是雙曲線函數(Sigmoid Function)
腫瘤偵測:類神經網路 • 機率類神經網路(Probabilistic Neural Network): 網路學習速度極快,只要將網路的權重值一次設定,再透過由輸入層的所有節點所算出的機率密度分佈,即可決定整個網路的架構 • 輻射基底函數類神經網路(Radial Basis Function Neural Network): 訓練時間比倒傳遞類神經網路快,但缺點是所需的隱藏層的節點數目很多,因此需要比較大的記憶體
實驗結果與結論 • 本實驗分別針對不同的乳房性質、分類器以及特徵值演算法選取做了分析比較 • 在乳房性質方面,以脂肪類的正確辨識率最高90%以上,其次為脂肪腺體類,而緻密腺體類為最差,而因為30歲以下的女性大多屬於緻密腺體類,因此不建議做X 光片影片偵測
實驗結果與結論 • 在分類器上,以機率類神經網路的表現為最佳,其所需的時間也相當短 • 基因演算法與逐步性演算法選取出的特徵值組差異度不大,主要的特徵值皆有被標示出來,而次要的特徵值則有一兩個特徵值之內的差異 • 主成份分析所產生的新特徵值組,在平均類神經網路上的正確辨識率,都明顯比特徵值演算法選取所產生的結果差