Data mining

Data mining 胡念祖國立虎尾科技大學資訊管理系助理教授

個人簡歷 • 現任虎尾科大專任助理教授、交通大學兼任助理教授 • 台中港務局、興農實業、恒耀工業、靜宜大學、日東電工BI訓練與導入建置 • 彰化基督教醫院－健保資料庫分析、慈濟醫院大林分院－病歷分析 • 朝陽科大、屏東商業技術學院、台中技術學院協助SOA教育訓練 • 網格非線性最佳化系統開發 • 新竹市政府、公路局網頁系統開發 • 東元電機配料管理系統 • 農委會育苗管理系統 • 榮民製藥廠、金門電力公司人事薪資系統 • 相關證照： • Sun Certified Java Programmer • IBM Certificated SOA Solution Designer • IBM Cognos Administrator • IBM Cognos Author • IBM DB2 Fundamental • Microsoft SQL Server 2008 Implementation and Maintenance • Microsoft SQL Server 2008 Business Intelligence

BI Lab Business Intelligence (Microsoft, IBM, Strategy Analyzer) SQL Server, Oracle iOS, Android development (native, html5) Citrix XenApp/XenDesktop, VMWare ESX SOA, J2EE .Net Framework development Lab成員: 廖乙學、劉宣麟、趙柏翔、楊勝復、郭小瑋

資料探勘=預測?? 瑞士刀??

資料探勘 vs. 統計分析 母體特質機率分配信心水準適用方法解釋手法平民百性 vs. 專家

一、資料採礦的功能 • Classification (分類) • Estimation (推估) • Cluster (群集化) • Affinity Group (同質分組) • Sequential (序列) • Description (描述)

Classification (分類) • 變數的種類 • 連續變數、類別變數 • 預測連續數值 • 找出未知但明確的準則 • 相關應用 • 信用風險違約機率預測 • 交叉銷售 • 顧客流失

Estimation (推估) • 預測連續數值 • 預測未來的走向、趨勢 • 應用 • 風險管理的違約 • 金融商品的價格趨勢變化 • 進貨、銷售、存貨價量變化趨勢 • 顧客貢獻度、價值

Cluster (群集化) • 沒有分類準則、找出事物相似性的內部結構 • 應用 • 顧客分群 • 協同式過濾產品推薦 • 晶圓製程瑕疵分佈 • 文件分類

Affinity Group(同質分組) • 從歷史資料找出那些物件/事件是相伴發生 • 尿布與啤酒、藍乳酪 • 應用 • 產品交叉銷售、自動化推薦 • 網頁結構分析 • 文件（病歷、專利文件）關鍵字關聯性分析

Sequential(序列) • 找出事物「先後」發生的順序、週期 • 59.1%的消費者會在27-57天再購買精油蠟燭 • 應用 • 產品提升銷售 • 網頁瀏覽序列分析 • 逾期繳款行為模式分析

Description(描述) • 視覺化分析資料中隱藏的規則 • 信用卡的免費保單

資料採礦的應用 • 直效行銷 • 電話行銷的忠誠度(?)、配對 • 交叉銷售 • 金融業（種類少、獲利高、個別產品回應模型） • 零售業、財富管理（種類多、獲利低、關聯規則） • 信用風險管理 • 違約機率模型、違約曝險額模型、違約損失率模型 • 流失分析 • 流失率減少5%，利潤成長 100％ • 20％的好顧客貢獻利潤的150%，最差40%的顧客使利潤縮減50%

二、資料採礦流程(CRISP-DM) • Cross-Industry Process for Data Mining • 定義商業問題(Business Understanding) • 定義分析資料(Data Understanding) • 資料預處理(Data Preparation) • 建立模型(Modeling) • 模型評估(Evaluation) • 應用模型(Deployment)

定義商業問題(Business Understanding) • 配合企業現況以解決商業問題 • 同樣的主題在不同的產業，作法會不同 • 同樣的主題在相同的產業之不同產品，作法就不用

定義分析資料(Data Understanding) • 預測的意義來自於比較 • 過與不及，酸黃瓜 • 排除常識的樣本預區隔 • 電信業手機租期分析 • 時窗分析 • 樣本時窗(愈多愈好？）、緩衝期、觀察時窗 • 預測客戶是否真的會流失？ • 訓練組、鑑效組（規則重現檢測）、測試組 • 過度學習(Over-Fitting) • 稀有事件 • 具影響性、誤差抽樣（多的抽少、漸進式)

資料預處理 • 異常值處理 • 遺漏值（邏輯填補、統計值、新選項、採礦分析） • 極端值（Ｚ分數、剔除、天花板、函數校正、全距法、Sigmoid、十進位) • 變數轉換 • 連續->類別(等寬、等分、Ｚ分數、反曲點、監督式） • 類別->連續（連續性指派） • 變數篩選 • 衍生變數（目前、曾經、累計、平均、比率、成長率） • 篩選有效變數（非重覆性x、選項多x、時點錯誤x、WOE） • 變數共線性(相關係數>0.8, 以IV值高的為主）

輪胎剖面圖

輪胎研發硫化時間與物理性能關係圖

實驗數據

類神經網路示意圖

類神經網路分層圖

資料探勘-可信度?? • 資料前處理(異常值、歷史資料、遺漏值等) • 資料熟悉度?? • 變數選擇、處理 • 抽樣比例 • 模型選擇、參數設定 • 單一模型 vs. 多種模型 • 變數、參數貢獻度一成不變?? • 模型可用壽命

謝謝祝週末假日愉快

Data mining

Data mining

Presentation Transcript

Data Mining

DATA MINING

Data Mining

Data Mining

Data Mining: Data

Data Mining

DATA MINING

Data Mining: Data

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

Data Mining: Data

Data Mining: P enelitian Data Mining

Data Mining

Data Mining: Data

Data Mining

Data Mining: Data

Data-mining

Data Mining

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining: Data