1 / 37

DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM

DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM. MTS 在分類問題之應用 指導教授:童超塵 教授 報告學生:莊岳龍. 報告主題大綱. ABSTRACT INTRODUCTION THE MAHALANOBIS-TAGUCHI SYSTEM ILLUSTRATION COMPARISON CONCLUSIONS. ABSTRACT 摘要. MTS 是由田口博士所發展出的一種型態辨識 技術,這個技術的主要目的是透過建構一多 變量量表對多維資料進行較佳的預測 。本研

zagiri
Download Presentation

DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATA CLASSIFICATION USING THE MAHALANOBIS-TAGUCHI SYSTEM MTS在分類問題之應用 指導教授:童超塵 教授 報告學生:莊岳龍

  2. 報告主題大綱 • ABSTRACT • INTRODUCTION • THE MAHALANOBIS-TAGUCHI SYSTEM • ILLUSTRATION • COMPARISON • CONCLUSIONS

  3. ABSTRACT摘要 MTS是由田口博士所發展出的一種型態辨識 技術,這個技術的主要目的是透過建構一多 變量量表對多維資料進行較佳的預測。本研 究中,利用分析兩組資料來說明MTS的有效 性。執行的結果發現MTS的分類結果較傳統 鑑別分析佳。除此之外,本文亦探討有關應 用MTS之優缺點。

  4. INTRODUCTION前言介紹 由於在技術方面的迅速的發展,組織能容易 收集所需要的數據。更重要的是現代企業能 有效地處理大量的數據並且從資料庫中得到 知識。資料探勘是獲得資料中非常重要技術 之一,而分類是資料探勘的主要任務之一。 有幾種技術是用于分類,例如線性鑑別分析 (linear discriminant Analysis)和數理回歸, 決策樹,神經網路,等等。

  5. INTRODUCTION前言介紹 傳統的統計技術通常需要跟隨一些假定;不過, 同時滿足全部條件是很難的。另一方面,神經網 路方法在以簡單線索條件下有明顯的缺點。MTS 是田口博士所發展的一項新技術,結合了Mahalanobis distance等距觀念、直交表和訊 號雜音比。MTS被推蔫為診斷和預測多維資料的 方法。田口博士認為MTS是數據分析方法並且不 需要假定。

  6. INTRODUCTION前言介紹 MTS的主要目標是透過建構量表,來做多 維系統的準確的預測。當適用於多維資料 時,這項研究的目的是檢查MTS的預測能 力,且有兩套數據用來分析,第一組資料 是植物數據,有著線性架構,第二組資料 是來自台灣銀行的信用卡資料,為非線性 數據。

  7. THE MAHALANOBIS-TAGUCHI SYSTEM • MTS是個基於正常觀測值群組的多變量,為了鑑定異常的觀測值的診斷結論和預測的工具。 • 正常群組的例子為藥品診斷結果中的健康的人,在信貸評估方面有好信用的人,及在產品檢驗過程中良好產品的。

  8. THE MAHALANOBIS-TAGUCHI SYSTEM 使用MTS, 第一步是先定義和抽樣正常觀測值然 後建構一個參考Mahalanobis Space(MS)的量表 ,然後我們確認是否去建造有能力去區分正常群 組和異常群組的Mahalanobis Distance (MD)假如 答案是否定,我們需要重新抽樣或尋找新的數值 來建構MS。假如答案是肯定的,我們能使用直交 表和訊號雜音比來評估每個變數的貢獻和縮減變 數的數量。在相同或者可接受預測水準之下,如 果變數的數量被降低,我們能減少處理資料的費 用。

  9. MTS的重要四步驟 • 第一階段︰參考MS,建造量表 • 第二階段:確認量表 • 第三階段:審查重要的變數 • 第四階段:診斷或預測將來重要變數的 觀測值

  10. 第一階段︰參考MS,建造量表 為了建造一個量表規模,我們需要收集一 組正常的觀測值和使這些觀測值的變數標 準化來計算Mahalanobis Distances(MD)。 下列是用來計算MD的公式︰

  11. 第二階段:確認量表 為了確認量表,在MTS中,決策者再建構MTS量 表變數時,需要檢查及再次核對一下才能被正確 地選擇。當量表確定之後,我們需要使用落在MS 外的觀測值來估計這些變數是否合適。如果異常 的觀測值數量是 t,我們使用平均值和標準差和 正常的觀測值相關母體來計算異常觀測值的MD。 根據MTS理論,異常觀測值的MD比正常觀測值 的MD會來的較大。

  12. 第三階段:審查重要的變數 這步的目的是找到重要分析過程或者診斷過程中 有幫助的變數,直交表和訊號雜音比為鑑別重要 變數非常有用的。在實驗過程中,每個因子將會 分派到直交表中的行,每一列代表的是和實驗結 合的執行。我們將在每一步執行,分派變數去計 算MD,然後從MD中獲得訊號雜音比。訊號雜音 比定義為測量量表的正確性的工具。

  13. 第四階段:診斷或預測將來重要變數的觀測值 • 在困苦的現實中,資訊科技讓我們更容易的收集資料。假如我們減少變數的數量,是比較有利的。因此,在這個步驟中我們使用重要的變數,變數是先前步驟中去重新建構的MTS量,並且來證明是否這個量表能恰當地預測及診斷將來觀測值。 • 圖1中,展示MTS技術如何預測多變量資料。

  14. Define the problem Define response / Choose control factors Pre-process data Sample a set of normal observations to construct a Full Model MTS Measurement Scale Not Good Validate the measurement scale Good Screen important variables MTS Approach Use normal observations to re-construct a Reduced Model MTS Measurement Scale Good Not Good Validate the measurement scale Use the Reduced Model MTS Measurement Scale for Future diagnosis and prediction

  15. ILLUSTRATION說明 • 在這研究中,使用了二種不同的資料,一個為Iris data植物資料,另一個是credit card data信用卡資料。 • Iris data:植物三種種類:有棘毛的、顏色鮮豔的、地理位置較偏避的,抽樣150筆花類資料每個種類有50筆觀測值,資料有萼片長、萼片寬、花瓣長、花瓣寬、及相依變數,如:花的種類。

  16. Iris data • 第一步:定義問題 • 第二步:確定反應/控制變數 • 第三步:建構“Full Model MTS 量表“。表1、圖2 • 第四步:確認量表的能力。圖3 • 第五步:審查重要變數。表2、圖4 • 第六步:建構“Reduced Model MTS 量表“。圖5 • 第七步:確定量表的能力。圖6

  17. ILLUSTRATION說明 • Credit Card Data:信用卡相關資訊來自於銀行的信用 卡部門。包括了十五個變數(sex性別、age年齡、 marriage status結婚狀況、education教育程度、 background difference學經歷、position職務、 occupation職業、credit limit信用卡額度、residential area居住區域、salary薪資、house owner or not是否 擁有房子、card org信用卡銀行、card type信用卡種 類、cash balance現金餘額、hi balance最高欠款金 額。),並且以block code來確定信用卡等級是否良 好,在這個例子中,樣本大小為六千個。

  18. Credit Card Data • 第一步:定義問題 • 第二步:第二步:確定反應/控制變數 • 第三步:前序資料 • 第四步:建構“Full Model MTS 量表“。表3、4、圖7 • 第五步:確認量表的能力。圖8 • 第六步:確認重要變數。表5、圖9 • 第七步:建構“Reduced Model MTS 量表“。圖10 • 第八步:確定量表的能力。圖11

  19. COMPARISON比較 • 為了測試MTS預測模型的能力,我們使用線性鑑別分析Linear discriminant analysis(LDA)來比較。 • LDA的目的是去了解哪一個變數能分類出不同群組,而且能區分這些群組。

  20. COMPARISON比較 表格六展示出植物資料的鑑別分析確定的結果, 全部的分類正確比率為95.83%。表格七展示出 FULL MODEL MTS的分析結果,且分類正確率為 97.92%。表格八展示逐步鑑別分析的結果,且 全部分類正確比率為95.83%。表格九展示出 Reduced Model MTS的分析結果。利用Reduced Model MTS篩選了重要變數A、C、D。這個結果 跟逐步鑑別分析,有些許的不同,全部分類正確 比率為97.92%。

  21. COMPARISON比較 表格十展示信用卡資料的分析結果,LDA的全部 分類正確比率為97.975%。表格十一展示出FULL MODEL MTS的分析結果,全部分類正確比率為 99.13%。 變數的減少,透過逐步鑑別分析的結果表格十二 展示逐步鑑別分析的結果,全部分類正確率為 97.87%。表格十三為Reduced Model MTS的分 析結果,全部分類正確率為99%。

  22. COMPARISON比較 • 從植物資料中,我們發現假如使用所有的四個變數來預測,MTS預測正確率比傳統鑑別分析高2.09%。關於變數的減少,透過逐步鑑別分析,保留了四個變數,分類正確比率為97.92%。另一方面的MTS,只使用了三個變數,分類正確比率也比分辨分析高出2.09%。

  23. COMPARISON比較 • 在信用卡資料中,使用二十六個變數之下,MTS的分類正確比率為99.13%,高於逐步鑑別分析1.255%。減少變數後的逐步鑑別分析法,仍需十八個變數。但MTS只需要十三個變數。這表示我們只需要原本變數的一半,不過分類正確比率仍然很高(99%),比逐步分辨分析法高出1.13%。

  24. CONCLUSIONS結論 • 這個研究確認MTS可為多變量資料執行預測。我們使用了兩種不同型態的資料來討論MTS的預測能力。結果顯示,MTS比Discriminant analysis或stepwise discriminant analysis有較佳的預測正確率,無論是full mode 還是reduced model。

  25. MTS的優勢 • 變數在多變量系統中是互相關連的。鑑別分析discrimination是利用單一變數來單獨執行,可能會產生使人誤解的結果。MTS方法提出結合所有的變數,且考慮所有變數的相關性至MD Index,所以比較不會有誤。

  26. MTS的優勢 • MTS能處理複雜的多變量問題。且對於沒有統計知識的人很容易去使用。 • 異常的觀測值很容易的被決定出來。 • MTS能當有利篩選重要變數的工具。

More Related