150 likes | 463 Views
Rough Sets Theory. Presented by KC Yin. Outline. Introduction Characteristics Example Procedures for RST Core and reduct of attributes Tools Future Research. 1.Introduction.
E N D
Rough Sets Theory Presented by KC Yin
Outline • Introduction • Characteristics • Example • Procedures for RST • Core and reduct of attributes • Tools • Future Research
1.Introduction • RST 是波蘭Pawlak 教授(1982)提出的一種決策分析工具,1991 年出版Rough Set 專書(1991)後連續召開Rough Set 與知識發掘、Rough Set 與柔性計算等國際會議。 • RST主要針對不精確、不確定、不完全訊息進行分類分析和知識獲取,在醫療診斷、決策分析、機器學習、資訊檢索、近似推理等領域均獲致成功的應用成果。 • 研究結果常與決策樹模型及人工類神經網路兩種技術進行比較,約略集合理論可以獲致較為優異的成果。
2.RST characteristics 因RST具備下列特性,使其自1982 年開始已成功應用於許多不同領域: • 1. 能分析隱藏於大量資料中的事實。 • 2. 針對既有資料,不需與分析資料相關的額外資訊。 • 3. 當其進行資料處理時,不需修正資料裡隱含的不一致性(inconsistency),面對這種可能存在的不一致性,其會將所產生的法則分類為確定(certain)與可能(possible)兩大類。 • 4. 在數理觀念上簡單易懂且僅需簡單的演算過程。
3. Example • 病患p2、p3 與p5 在屬性“頭痛”難以辨識 • 病患p3 與p6 在屬性“肌肉痠痛”與“體溫”難以辨識 • 病患p2 與p5 在屬性“頭痛”、“肌肉痠痛”與“體溫”難以辨識。
3. Example • 屬性“頭痛”會產生兩個基本集合{p2, p3, p5}與{p1, p4, p6} • 屬性“頭痛”與“肌肉痠痛”則會形成以下的基本集合:{p1, p4, p6}、{p2, p5}與{p3} • 同樣的,我們可以定義任何屬性子集合所產生的基本集合。
因為病患p2 罹患流感而病患p5 未罹患流感,且其在屬性“頭痛”、“肌肉痠痛”與“體溫”上難以辨識,因此罹患流感與否就無法依據這些屬性來確認,故p2 與p5 即是位於邊界線上的對象,無法依據可獲得的知識來適當分類,不能排除罹患流感的可能。 • 剩下的病患中p1、p3 與p6(均罹患流感)所呈現的病狀則可對罹患流感進行確實的病狀分類; • 而病患p4 當然並未罹患流感,這些都是依據所呈現的病狀所獲得的結果。 • 欲界定罹患流感與否是否要用到表中所有的屬性呢?由觀察可知,若某病患有非常高的體溫(Very High)其必定罹患流感;若為高體溫(High)則無法適當分類;但若僅有常溫(Normal)時就絕不會罹患流感,屬性“體溫”即為核心(core)之
4. Procedures for RST • 1. 依據屬性-值來描述研究對象的集合; • 2. 建立屬性間的相依性,該關係可以是完全(full)的或是部分的(partial); • 3. 屬性的折減操作; • 4. 屬性的重要性(significance)分析; • 5. 產生決策法則。
5. Core and reduct of attributes • Reduct • 若屬性集合是相依的,發現屬性所有可能的最小子集合則是我們有興趣的,此所獲得相同的基本集合數目可作為整體的屬性集合(折減,reducts)。 • 下例中,(a2,a3)為一組 reduct • The reduct of an information system is not unique. • Core • 所有不可或缺屬性的集合(核心,core)。 • The set of attributes which is common to all reducts is called the core
因為移除屬性a1後,我們獲得的訊息系統與表2所呈現者相同,所以屬性集合是相依的(dependent)。因為移除屬性a1後,我們獲得的訊息系統與表2所呈現者相同,所以屬性集合是相依的(dependent)。
6.Tools • RST 分析係採用波蘭Warsaw 大學發展之RSES(Rough Set Exploration System)系統2.2版(2005),RSES 軟體具備強大的資料庫分析能力,可輕易進行移除重複紀錄、簡化屬性、發掘屬性關係、推演法則等操作,對於工程應用上自動化的知識探索與萃取,解決實務問題並作決策均非常理想與有效。 http://logic.mimuw.edu.pl/~rses/scripts/done.html
7.Future Research • ‘整合粗略集合與緣集合理論於資料探勘在生技產品生命週期與銷售之研究’,大葉大學/工業工程與科技管理學系/95/碩士 • ‘有效率的從決策表中去除多餘資訊的方法 ‘,南台科技大學/資訊管理系/94/碩士 • RoughSet Based Feature Selection for Web Usage Mining , Conference on Computational Intelligence and Multimedia Applications, 2007. International Conference on
References 1. “以約略集合理論推演鋪面破損養護維修法則”, 第七屆鋪面材料再生學術研討會, 建國科技大學 95 年10 月 2.http://logic.mimuw.edu.pl/~rses/ 3. http://www.knu.edu.tw/lecture/%B4%BF%AE%D5%AA%F8930630%BAt%C1%BF%A5%E6%A5I%B8%EA%AE%C6/Rough%20set-tutorial.doc 4. Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning aboutData, Kluwer Academic Publishers, Norwell, MA, 1992 5.http://en.wikipedia.org/wiki/Rough_set#Information_system_framework