240 likes | 406 Views
Data mining. 胡念祖 國立虎尾科技 大學 資訊管理系 助 理 教授. 個人簡歷. 現任虎尾科 大專任助理教授、交通大學兼任助理教授 台中 港務局、興 農 實業 、 恒耀 工業、靜宜大學、日東電工 BI 訓練 與導入建置 彰化基督教醫院-健保資料庫 分析、慈濟醫院大林分院-病歷分析 朝陽 科大、屏東商業技術學院、台中技術學院協助 SOA 教育訓練 網 格非線性最佳化系統開發 新竹市政府、公路局網頁系統 開發 東元電機配料管理系統 農委會育苗管理系統 榮民製藥廠、金門電力公司人事薪資系統 相關 證照:
E N D
Data mining 胡念祖 國立虎尾科技大學 資訊管理系 助理教授
個人簡歷 • 現任虎尾科大專任助理教授、交通大學兼任助理教授 • 台中港務局、興農實業、恒耀工業、靜宜大學、日東電工BI訓練與導入建置 • 彰化基督教醫院-健保資料庫分析、慈濟醫院大林分院-病歷分析 • 朝陽科大、屏東商業技術學院、台中技術學院協助SOA教育訓練 • 網格非線性最佳化系統開發 • 新竹市政府、公路局網頁系統開發 • 東元電機配料管理系統 • 農委會育苗管理系統 • 榮民製藥廠、金門電力公司人事薪資系統 • 相關證照: • Sun Certified Java Programmer • IBM Certificated SOA Solution Designer • IBM Cognos Administrator • IBM Cognos Author • IBM DB2 Fundamental • Microsoft SQL Server 2008 Implementation and Maintenance • Microsoft SQL Server 2008 Business Intelligence
BI Lab Business Intelligence (Microsoft, IBM, Strategy Analyzer) SQL Server, Oracle iOS, Android development (native, html5) Citrix XenApp/XenDesktop, VMWare ESX SOA, J2EE .Net Framework development Lab成員: 廖乙學、劉宣麟、趙柏翔、楊勝復、郭小瑋
資料探勘=預測?? 瑞士刀??
資料探勘 vs. 統計分析 母體特質 機率分配 信心水準 適用方法 解釋手法 平民百性 vs. 專家
一、資料採礦的功能 • Classification (分類) • Estimation (推估) • Cluster (群集化) • Affinity Group (同質分組) • Sequential (序列) • Description (描述)
Classification (分類) • 變數的種類 • 連續變數、類別變數 • 預測連續數值 • 找出未知但明確的準則 • 相關應用 • 信用風險違約機率預測 • 交叉銷售 • 顧客流失
Estimation (推估) • 預測連續數值 • 預測未來的走向、趨勢 • 應用 • 風險管理的違約 • 金融商品的價格趨勢變化 • 進貨、銷售、存貨價量變化趨勢 • 顧客貢獻度、價值
Cluster (群集化) • 沒有分類準則、找出事物相似性的內部結構 • 應用 • 顧客分群 • 協同式過濾產品推薦 • 晶圓製程瑕疵分佈 • 文件分類
Affinity Group(同質分組) • 從歷史資料找出那些物件/事件是相伴發生 • 尿布與啤酒、藍乳酪 • 應用 • 產品交叉銷售、自動化推薦 • 網頁結構分析 • 文件(病歷、專利文件)關鍵字關聯性分析
Sequential(序列) • 找出事物「先後」發生的順序、週期 • 59.1%的消費者會在27-57天再購買精油蠟燭 • 應用 • 產品提升銷售 • 網頁瀏覽序列分析 • 逾期繳款行為模式分析
Description(描述) • 視覺化分析資料中隱藏的規則 • 信用卡的免費保單
資料採礦的應用 • 直效行銷 • 電話行銷的忠誠度(?)、配對 • 交叉銷售 • 金融業(種類少、獲利高、個別產品回應模型) • 零售業、財富管理(種類多、獲利低、關聯規則) • 信用風險管理 • 違約機率模型、違約曝險額模型、違約損失率模型 • 流失分析 • 流失率減少5%,利潤成長 100% • 20%的好顧客貢獻利潤的150%,最差40%的顧客使利潤縮減50%
二、資料採礦流程(CRISP-DM) • Cross-Industry Process for Data Mining • 定義商業問題(Business Understanding) • 定義分析資料(Data Understanding) • 資料預處理(Data Preparation) • 建立模型(Modeling) • 模型評估(Evaluation) • 應用模型(Deployment)
定義商業問題(Business Understanding) • 配合企業現況以解決商業問題 • 同樣的主題在不同的產業,作法會不同 • 同樣的主題在相同的產業之不同產品,作法就不用
定義分析資料(Data Understanding) • 預測的意義來自於比較 • 過與不及,酸黃瓜 • 排除常識的樣本預區隔 • 電信業手機租期分析 • 時窗分析 • 樣本時窗(愈多愈好?)、緩衝期、觀察時窗 • 預測客戶是否真的會流失? • 訓練組、鑑效組(規則重現檢測)、測試組 • 過度學習(Over-Fitting) • 稀有事件 • 具影響性、誤差抽樣(多的抽少、漸進式)
資料預處理 • 異常值處理 • 遺漏值(邏輯填補、統計值、新選項、採礦分析) • 極端值(Z分數、剔除、天花板、函數校正、全距法、Sigmoid、十進位) • 變數轉換 • 連續->類別(等寬、等分、Z分數、反曲點、監督式) • 類別->連續(連續性指派) • 變數篩選 • 衍生變數(目前、曾經、累計、平均、比率、成長率) • 篩選有效變數(非重覆性x、選項多x、時點錯誤x、WOE) • 變數共線性(相關係數>0.8, 以IV值高的為主)
資料探勘-可信度?? • 資料前處理(異常值、歷史資料、遺漏值等) • 資料熟悉度?? • 變數選擇、處理 • 抽樣比例 • 模型選擇、參數設定 • 單一模型 vs. 多種模型 • 變數、參數貢獻度一成不變?? • 模型可用壽命
謝謝 祝 週末假日愉快