1.2k likes | 1.9k Views
資料探勘 (Data Mining). 蔡懷寬 D7526010@csie.ntu.edu.tw. Please tell me. Why you are here? Make a definition of Data Mining. ?. Input. Output. 道. Input. Output. Input. ?. Linear System. Input. Input. ?. Nonlinear System. Input. Input. ?. Chaotic System. Input. Introduction.
E N D
資料探勘(Data Mining) 蔡懷寬 D7526010@csie.ntu.edu.tw
Please tell me • Why you are here? • Make a definition of Data Mining
? Input Output
道 Input Output
Input ?
Linear System Input
Input ?
Nonlinear System Input
Input ?
Chaotic System Input
Introduction • What is data mining? • Why data mining? • How to do data mining? • Data Mining: On what kind of data? • Data preprocessing • Association rules • Clustering • Classification
“Data Structure” Wisdom Knowledge Information Data
“Data Structure” • 資料(Data) • 未經處理的資訊 • 資訊(Information) • 經某人組織,展現的資料 • 知識(Knowledge) • 資訊經過讀,看,聽後理解而得到了知識 • 智慧(Wisdom) • 知識經過精煉,整合後萃取出的精華
文字 書籍, 期刊, WWW, 備忘錄, … 刊載/參考 膠捲 照片, 其它影像 廣播, 電視 電話通訊 資料庫 有哪些資料 ?
資料量:以美國國會圖書館為例 • 國會圖書館藏書量 (1999) • 書: 約20 Terabytes(1012 bytes) • 20M books • 1 MB per book • 其他資料 • 13M 影像照片, 1MB each = 13 TB • 4M 地圖, say 200 TB • 500K 檔案, 1GB each = 500 TB • 3.5M 有聲資料, ~2000 TB • 總計: 約3 petabytes (3000 terabytes)
網路世界... • 在1999年有約800 Million Web Page在網際網路上 • Faulker’s Cyberscape Digest 08/06/99 • 網路的交通流量是每 100 天成長二倍 – 估計有62 Million美國人已經在使用網際網路(US Commerce Dept 1998) • 廣播節目花了 38 年才得到五千萬聽眾, 電視節目花了 13 年, 而網際網路才花了 4 年...
Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive 資訊生命週期(Information Life Cycle)
資訊產生的問題 • 資訊儲存 • 如何且在哪裡儲存資訊 ? • 資訊擷取 • 如何從儲存的資料還原成資訊 • 如何找到所需要的資訊 • 如何和 存取(Accessing)/過濾(Filtering)的方法連結
Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Key Issues
DEFINITION • DATA MINING 就是從資料中裡,將隱含的、潛在性有用的及不清楚的資料,挖掘、淬取出來的過程。也就是說從資料中挖掘以前不知道的知識。 • 相關名詞 :知識淬取(knowledge extraction)資料打撈(data dredging)資料考古學(data archaeology)
遠古至今即存在Data Mining • 月暈知風 • 礎潤知雨 • 晚上起霧第二天晴天 • 看到媽媽拿鞭子落跑 • 這些在我們的傳統用法稱之為: • 經驗法則
Data Mining 之演進過程 Statistics ~1800? Expert Systems ~1970 Pattern Recognition ~1970 Rule induction Machine learning ~1980 Relational Databases, Triggers ~1980 Knowledge Discovery for Databases (KDD) ~1990 MIS decision support ~1990 Data Mining ~1995
Why Data Mining • Necessity is the Mother of Invention!
Data Mining 為何興起? • 商品條碼之廣泛使用 • 企業界之電腦化 • 數以百萬計之資料庫正在使用 • 多年來累積了大量企業交易資料 Data Knowledge
Data Mining 之同義詞 • Knowledge Discovery in Databases (KDD) • Knowledge Extraction • Data archaeology • Data Patten Analysis
主要功用 • 從資料庫中挖掘知識 • 了解使用者行為 • 幫助企業作決策 • 增進商機 • Too much!!!
Data Mining 應用例子(1) • 樂透
Data Mining 應用例子(2) • 超級市場 • 牛奶與白麵包 • 啤酒與香菸 • 啤酒與尿布
Data Mining 應用例子(3) • NBA 美國職籃 • 1996, 紐約尼克隊 總教練 Pat Riley • 運用Data Mining • 發現: 出戰芝加哥公牛隊,尼克中鋒尤恩被包夾時,得分率偏低
一般被包夾防守時,有一人空出來,可輕鬆投籃得分一般被包夾防守時,有一人空出來,可輕鬆投籃得分
Data Mining 應用例子(4) • 搜尋網站 • GOOGLE
Data Mining 應用例子(5) • 公司對客戶的市場分析,例如: • 消費習慣、客戶分群、消費預測 • 例子: • 超級市場、錄影帶出租店、信用卡…
Data Mining 應用例子(7) • 大宇宙的預測: • 天氣預測 • 地震預測 • 土石流預測 • 慧星撞地球 • …
Data Mining 應用例子(8) • 小宇宙的預測 • 疾病預測 • 基因功能預測 • 結構預測 • …
How to Do Data Mining? • First of all, you have to learn • How to put your data Database • Then, you have to do • data preprocessing • Finally, you should have some weapons : • Data mining techniques
Why Data Preprocessing? • Data in the real world is dirty • incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data • noisy: containing errors or outliers • inconsistent: containing discrepancies in codes or names • No quality data, no quality mining results! • Quality decisions must be based on quality data • Data warehouse needs consistent integration of quality data
Major Tasks in Data Preprocessing • Data cleaning • Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies • Data integration • Integration of multiple databases, data cubes, or files • Data transformation • Normalization and aggregation • Data reduction • Obtains reduced representation in volume but produces the same or similar analytical results • Data discretization • Part of data reduction but with particular importance, especially for numerical data
Data Mining 主要方法介紹 • 關聯規則 (Association rule) • 屬性導向歸納法(Attribute Oriented Induction) • 資料分類 (Classification) • 資料分群 (Data Clustering) • 模式導向相似性搜尋(Pattern-BasedSimilarity Search) • 資料方塊法 (Data Cube) • Sequence Pattern Mining
關聯規則 Association Rule • 同一個交易中,一個item出現也會引起另一個item的出現 • Association rule例子 • 若顧客購買麵包,則他很可能也會購買牛奶 • Association rule: 麵包 => 牛奶 • P(牛奶|麵包) 的機率值高
關聯規則之 可信度(confidence) • 關聯規則 A => B • 可信度為: 在A出現之條件下出現B之機率 • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問 麵包 => 牛奶 之可信度為多少?
關聯規則之 可信度(Confidence) • 資料庫中的交易紀錄 t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 可信度= P(B|A) = P(A,B)/P(A) • P(牛奶|麵包) = P(麵包 ,牛奶) N(麵包 ,牛奶) = P(麵包) N(麵包)
關聯規則之 支持度(Support) • 關聯規則 A => B • 支持度為: A與B同時出現之機率 P(A, B) • 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) • 請問 麵包 => 牛奶 之支持度為多少?
練習 • 交易編號 購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 關聯規則 A=> D 之 可信度 為多少? • 關聯規則 A=> D 之 支持度 為多少?
練習 • 交易編號 購買產品 • T1 (K, A, D, B) • T2 (D, A, C, E, B) • T3 (C, A, B, E) • T4 (B, A, D) • 請找出可信度 >= 60% 支持度 >= 50%之關聯規則