380 likes | 615 Views
DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM. MTS 在分類問題之應用 指導教授:童超塵 教授 報告學生:莊岳龍. 報告主題大綱. ABSTRACT INTRODUCTION THE MAHALANOBIS-TAGUCHI SYSTEM ILLUSTRATION COMPARISON CONCLUSIONS. ABSTRACT 摘要. MTS 是由田口博士所發展出的一種型態辨識 技術,這個技術的主要目的是透過建構一多 變量量表對多維資料進行較佳的預測 。本研
E N D
DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM MTS在分類問題之應用 指導教授:童超塵 教授 報告學生:莊岳龍
報告主題大綱 • ABSTRACT • INTRODUCTION • THE MAHALANOBIS-TAGUCHI SYSTEM • ILLUSTRATION • COMPARISON • CONCLUSIONS
ABSTRACT摘要 MTS是由田口博士所發展出的一種型態辨識 技術,這個技術的主要目的是透過建構一多 變量量表對多維資料進行較佳的預測。本研 究中,利用分析兩組資料來說明MTS的有效 性。執行的結果發現MTS的分類結果較傳統 鑑別分析佳。除此之外,本文亦探討有關應 用MTS之優缺點。
INTRODUCTION前言介紹 由於在技術方面的迅速的發展,組織能容易 收集所需要的數據。更重要的是現代企業能 有效地處理大量的數據並且從資料庫中得到 知識。資料探勘是獲得資料中非常重要技術 之一,而分類是資料探勘的主要任務之一。 有幾種技術是用于分類,例如線性鑑別分析 (linear discriminant Analysis)和數理回歸, 決策樹,神經網路,等等。
INTRODUCTION前言介紹 傳統的統計技術通常需要跟隨一些假定;不過, 同時滿足全部條件是很難的。另一方面,神經網 路方法在以簡單線索條件下有明顯的缺點。MTS 是田口博士所發展的一項新技術,結合了Mahalanobis distance等距觀念、直交表和訊 號雜音比。MTS被推蔫為診斷和預測多維資料的 方法。田口博士認為MTS是數據分析方法並且不 需要假定。
INTRODUCTION前言介紹 MTS的主要目標是透過建構量表,來做多 維系統的準確的預測。當適用於多維資料 時,這項研究的目的是檢查MTS的預測能 力,且有兩套數據用來分析,第一組資料 是植物數據,有著線性架構,第二組資料 是來自台灣銀行的信用卡資料,為非線性 數據。
THE MAHALANOBIS-TAGUCHI SYSTEM • MTS是個基於正常觀測值群組的多變量,為了鑑定異常的觀測值的診斷結論和預測的工具。 • 正常群組的例子為藥品診斷結果中的健康的人,在信貸評估方面有好信用的人,及在產品檢驗過程中良好產品的。
THE MAHALANOBIS-TAGUCHI SYSTEM 使用MTS, 第一步是先定義和抽樣正常觀測值然 後建構一個參考Mahalanobis Space(MS)的量表 ,然後我們確認是否去建造有能力去區分正常群 組和異常群組的Mahalanobis Distance (MD)假如 答案是否定,我們需要重新抽樣或尋找新的數值 來建構MS。假如答案是肯定的,我們能使用直交 表和訊號雜音比來評估每個變數的貢獻和縮減變 數的數量。在相同或者可接受預測水準之下,如 果變數的數量被降低,我們能減少處理資料的費 用。
MTS的重要四步驟 • 第一階段︰參考MS,建造量表 • 第二階段:確認量表 • 第三階段:審查重要的變數 • 第四階段:診斷或預測將來重要變數的 觀測值
第一階段︰參考MS,建造量表 為了建造一個量表規模,我們需要收集一 組正常的觀測值和使這些觀測值的變數標 準化來計算Mahalanobis Distances(MD)。 下列是用來計算MD的公式︰
第二階段:確認量表 為了確認量表,在MTS中,決策者再建構MTS量 表變數時,需要檢查及再次核對一下才能被正確 地選擇。當量表確定之後,我們需要使用落在MS 外的觀測值來估計這些變數是否合適。如果異常 的觀測值數量是 t,我們使用平均值和標準差和 正常的觀測值相關母體來計算異常觀測值的MD。 根據MTS理論,異常觀測值的MD比正常觀測值 的MD會來的較大。
第三階段:審查重要的變數 這步的目的是找到重要分析過程或者診斷過程中 有幫助的變數,直交表和訊號雜音比為鑑別重要 變數非常有用的。在實驗過程中,每個因子將會 分派到直交表中的行,每一列代表的是和實驗結 合的執行。我們將在每一步執行,分派變數去計 算MD,然後從MD中獲得訊號雜音比。訊號雜音 比定義為測量量表的正確性的工具。
第四階段:診斷或預測將來重要變數的觀測值 • 在困苦的現實中,資訊科技讓我們更容易的收集資料。假如我們減少變數的數量,是比較有利的。因此,在這個步驟中我們使用重要的變數,變數是先前步驟中去重新建構的MTS量,並且來證明是否這個量表能恰當地預測及診斷將來觀測值。 • 圖1中,展示MTS技術如何預測多變量資料。
Define the problem Define response / Choose control factors Pre-process data Sample a set of normal observations to construct a Full Model MTS Measurement Scale Not Good Validate the measurement scale Good Screen important variables MTS Approach Use normal observations to re-construct a Reduced Model MTS Measurement Scale Good Not Good Validate the measurement scale Use the Reduced Model MTS Measurement Scale for Future diagnosis and prediction
ILLUSTRATION說明 • 在這研究中,使用了二種不同的資料,一個為Iris data植物資料,另一個是credit card data信用卡資料。 • Iris data:植物三種種類:有棘毛的、顏色鮮豔的、地理位置較偏避的,抽樣150筆花類資料每個種類有50筆觀測值,資料有萼片長、萼片寬、花瓣長、花瓣寬、及相依變數,如:花的種類。
Iris data • 第一步:定義問題 • 第二步:確定反應/控制變數 • 第三步:建構“Full Model MTS 量表“。表1、圖2 • 第四步:確認量表的能力。圖3 • 第五步:審查重要變數。表2、圖4 • 第六步:建構“Reduced Model MTS 量表“。圖5 • 第七步:確定量表的能力。圖6
ILLUSTRATION說明 • Credit Card Data:信用卡相關資訊來自於銀行的信用 卡部門。包括了十五個變數(sex性別、age年齡、 marriage status結婚狀況、education教育程度、 background difference學經歷、position職務、 occupation職業、credit limit信用卡額度、residential area居住區域、salary薪資、house owner or not是否 擁有房子、card org信用卡銀行、card type信用卡種 類、cash balance現金餘額、hi balance最高欠款金 額。),並且以block code來確定信用卡等級是否良 好,在這個例子中,樣本大小為六千個。
Credit Card Data • 第一步:定義問題 • 第二步:第二步:確定反應/控制變數 • 第三步:前序資料 • 第四步:建構“Full Model MTS 量表“。表3、4、圖7 • 第五步:確認量表的能力。圖8 • 第六步:確認重要變數。表5、圖9 • 第七步:建構“Reduced Model MTS 量表“。圖10 • 第八步:確定量表的能力。圖11
COMPARISON比較 • 為了測試MTS預測模型的能力,我們使用線性鑑別分析Linear discriminant analysis(LDA)來比較。 • LDA的目的是去了解哪一個變數能分類出不同群組,而且能區分這些群組。
COMPARISON比較 表格六展示出植物資料的鑑別分析確定的結果, 全部的分類正確比率為95.83%。表格七展示出 FULL MODEL MTS的分析結果,且分類正確率為 97.92%。表格八展示逐步鑑別分析的結果,且 全部分類正確比率為95.83%。表格九展示出 Reduced Model MTS的分析結果。利用Reduced Model MTS篩選了重要變數A、C、D。這個結果 跟逐步鑑別分析,有些許的不同,全部分類正確 比率為97.92%。
COMPARISON比較 表格十展示信用卡資料的分析結果,LDA的全部 分類正確比率為97.975%。表格十一展示出FULL MODEL MTS的分析結果,全部分類正確比率為 99.13%。 變數的減少,透過逐步鑑別分析的結果表格十二 展示逐步鑑別分析的結果,全部分類正確率為 97.87%。表格十三為Reduced Model MTS的分 析結果,全部分類正確率為99%。
COMPARISON比較 • 從植物資料中,我們發現假如使用所有的四個變數來預測,MTS預測正確率比傳統鑑別分析高2.09%。關於變數的減少,透過逐步鑑別分析,保留了四個變數,分類正確比率為97.92%。另一方面的MTS,只使用了三個變數,分類正確比率也比分辨分析高出2.09%。
COMPARISON比較 • 在信用卡資料中,使用二十六個變數之下,MTS的分類正確比率為99.13%,高於逐步鑑別分析1.255%。減少變數後的逐步鑑別分析法,仍需十八個變數。但MTS只需要十三個變數。這表示我們只需要原本變數的一半,不過分類正確比率仍然很高(99%),比逐步分辨分析法高出1.13%。
CONCLUSIONS結論 • 這個研究確認MTS可為多變量資料執行預測。我們使用了兩種不同型態的資料來討論MTS的預測能力。結果顯示,MTS比Discriminant analysis或stepwise discriminant analysis有較佳的預測正確率,無論是full mode 還是reduced model。
MTS的優勢 • 變數在多變量系統中是互相關連的。鑑別分析discrimination是利用單一變數來單獨執行,可能會產生使人誤解的結果。MTS方法提出結合所有的變數,且考慮所有變數的相關性至MD Index,所以比較不會有誤。
MTS的優勢 • MTS能處理複雜的多變量問題。且對於沒有統計知識的人很容易去使用。 • 異常的觀測值很容易的被決定出來。 • MTS能當有利篩選重要變數的工具。