1.16k likes | 1.54k Views
Data Mining Microsoft SQL Server 2005. 謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會 理事長. stat1001@mails.fju.edu.tw WWW.CDMS.ORG.TW www.stat.fju.edu.tw. 你不能不知的十大創新技術. Technology Review 雜誌 (麻省理工學院 2002 年 1 月出刊). 改變未來的 十大創新技術. 機器與人腦的介面 塑膠電晶體 資料採礦 (Data mining) 數字權利管理 生物測定學 (Biometrics) 語言識別處理
E N D
Data MiningMicrosoft SQL Server 2005 謝邦昌 輔仁大學統計資訊學系 教授中華資料採礦協會 理事長 stat1001@mails.fju.edu.tw WWW.CDMS.ORG.TW www.stat.fju.edu.tw
你不能不知的十大創新技術 Technology Review雜誌(麻省理工學院2002年1月出刊)
改變未來的十大創新技術 • 機器與人腦的介面 • 塑膠電晶體 • 資料採礦(Data mining) • 數字權利管理 • 生物測定學(Biometrics) • 語言識別處理 • 微光學技術(Microphotonics) • 解開程式碼(Untangling code) • 機器人設計 • 微應用流體學(Microfluidics)
Protocols: Loosely Coupled APIs: Tightly Coupled • Speech/Writing Waves of Innovation • Devices • Wi-Fi/Broadband • Web Services • Trusted Computing Hardware • Rights Management • XML/SOAP • HTTP/HTML • SMTP • Email Clients • Web Browsers • Mouse • GUI • LANs • PC Architecture • DOS • Spreadsheets • Word Processors Today PC Mid 80s Applications Late 80s-Mid 90s Internet Mid 90s Web Apps Mid 00s - . . .
定義企業問題 資料準備 資料檢視 模型的建立 模型的評估 佈署與應用 Data Mining 處理流程CRISP-DM DATA MINING 處理流程 資料源 DATA MINING 執行階段
定義企業問題 資料準備 資料檢視 模型的建立 模型評估 佈屬與應用 Data Mining整合微軟商業智慧方案 整合性服務 (SSIS) 資料來源檢視表 (Data Source View) 資料源 資料源 SSIS 分析服務 報表服務 分析服務 (Data Mining)
定義企業問題 (CRISP-DM) • 確定目前內部遇到的問題 • 定義解決的目標是開源或是節流 • 電信用戶忠誠度逐年下降.. • 產品良率持續下降… • 零售點庫存情況成長… • 保戶詐欺狀況不斷升高… • 卡戶剪卡比例增加… • 客戶呆帳發生數暴增… • 客戶轉貸頻率提升…
資料準備(CRISP-DM) • 使用資料平台整合性服務(SSIS) • 全新的資料轉換工具,SQL 2000 稱之為 DTS • 消除異常資料如出生前的消費記錄、離家300公里的日常消費 • 進行資料載入、轉換、清除過濾與彙整 • 多重資料源整合至資料倉儲或分析服務 • 進行資料取樣 • 處理訓練與驗證資料 • 根據百分比抽樣 • 根據筆數抽樣 • 整合變數使用 • 衍生性欄位、通用變數…等 • 文字採礦功能 • 可擷取單字或是片語 • 可列舉排除關鍵字
資料檢視(CRISP-DM) • 進行建立模型前的決策 • 檢視資料分佈情況 • 檢視資料最大最小值 • 檢視資料標準差 • 檢視資料平均值 • 使用的工具 • BI Development Studio
Training Validation Test 模型的建立(CRISP-DM) • 將資料切割為: • 訓練資料 • 鑑效資料 • 測試資料 • 同一商業問題可以透過多種演算法、調整參數找出最佳模型 • 微軟提供9種採礦演算法(再加Text Mining) • 利用Data Mining 語法 • 利用Data Mining 建置精靈
模型的評估(CRISP-DM) Training 使用 訓練資料集 建立預測模型. Validation 使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應 Test 使用測試資料集來選擇模型以及測量模型在預測未知資料的能力 • 微軟提供的評估方法可以透過 • Mining Accuracy Chart • Lift Chart-累積增益圖 • Classification Matrix-錯差矩陣
模型的評估使用測試資料(CRISP-DM) • 利用測試資料集進行欄位對應 • 選擇輸入資料表 • 進行欄位對應
模型的評估之累積增益圖(CRISP-DM) • 累積增益圖指標 • 可以判斷不同採礦演算法的準確率
模型效益評估之錯差矩陣(CRISP-DM) • 橫軸為預測結果,縱軸為實際結果 • 用來比較各類預測正確與錯誤之組合
佈署與應用(CRISP-DM) • 將採礦的分析結果部署到商業模型中,達到自動化預測的效果,以提升營運利潤、改善商業流程 • 使用對象 • 決策者 • 行銷單位 • 財務分析 • 品保單位 • 整合方案 • 使用技術 DMX、AMO 、XMLA • 資料平台整合性服務(Integration Services) • 分析服務(Analysis Services) • 報表服務(Reporting Services)
Database Theory Artificial Intelligence Data Warehousing Statistics Machine Learning Data Mining Data Mining評估
Data Mining工具 • 資料採礦工具是利用資料來建立一些模擬真實世界的模式(Model),利用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有兩種用處: • 瞭解資料的特徵與關係可以提供你做決策所需要的資訊。 • 資料的特徵可以幫助你做預測。
9個新algorithms+Text Mining 親切的使用者介面 12 種 viewer 與現有 BI 系統整合 與 Web & Office 整合 Business Knowledge SQL Server 2005 商 業 價 值 Data Mining OLAP Reports (動態 & Ad hoc) Reports (靜態) Easy Difficult 使用容易度 Data Mining的商業價值 資料來源:Microsoft Taiwan
決策樹 群集 貝氏機率分類 時間序列 時序群集 類神經網路 關聯規則 羅吉斯迴歸 完整的演算法 SQL Server 2000已提供 線性迴歸 文字資料採礦
Data Mining在各產業的應用 • 金融服務業 客戶貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷等。 • 保險業 顧客貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷、客戶流失分析和詐欺偵測等。 • 電信業 顧客貢獻度分析、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測和詐欺偵測等。
Data Mining在各產業的應用 • 製造業 客戶貢獻度分析、品質管制、行銷績效分析、生產分析和存貨分析等。 • 零售業 客戶忠誠度、客戶區隔、購物籃分析、定價分析、交叉行銷和銷售預測等。 • 生物科技、醫療保健、航太空業、環境、法律等
商業智慧的核心 • 如何收集資料 • 營運資料,市場調查資料,固定Panel追蹤 • 如何管理資料 • ETL,Data warehousing • 如何從資料中獲取智慧 • Data Mining,OLAP,Statistics • 如何應用智慧 • 行銷策略,主管決策,互動化CRM機制
商業智慧之整合運用 「不論是行銷或服務部門,如何將分析所得到的資訊,進一步轉換成經營管理可資利用的材料,並且在實際線上作業環境中,將整個回應機制完全自動化,充分運用這些資訊。」 「將資料分析所得的結果回饋入企業資源規劃系統(ERP),客戶關係管理(CRM)以及電子商務(EC)等系統中,藉此快速地提昇在這些系統上所花費大量支出的投資報酬率(return on investment, ROI) 」
Microsoft 商業智慧遠景 與 策略 透過提供企業所有成員商業洞察力,以提昇企業組織能夠更快速、更正確的產生營運決策 • 完整且高度整合的商業智慧解決方案 • 可透過Microsoft Office傳遞商業智慧訊息 • 符合預算考量的企業級解決方案
Integration Services • ETL的重要性 • ETL的重大突破 • 新一代ETL平台的工具標準
Integration ServicesETL的重要性 • 整合異質資料來源: • 文字檔案 大型主機 • 試算表 關連式資料庫 • 快速更新資料倉儲與資料超市 • 載入資料前可以清除錯誤資料 • 可以高效率進行線上交易處理系 • (OLTP) 與線上分析處理的資料 • (OLAP)轉換作業 • 回報作業成功與失敗的狀態 • 透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業 • 包含資料自動管理功能
Alerts & escalation CRM: semi structured Data mining ETL Text Mining Staging Legacy data: binary files Staging Warehouse ETL Hand coding Staging Cleansing & ETL Reports Application database ETL Mobile data 傳統資料整合作業 • 資料整合與資料倉儲建立過程中需要額外的暫存性資料區(Stage)與作業(如彙總) • 資料處理需要不同多種工具(如CRM系統的文字採礦工具) 且工具間有相容性問題存在 • 回報機制與問題層級提升的速度緩慢 • 資料過多時往往會造成該策略無法運作
Alerts & escalation Mobile data Text mining components CRM Semi-structured data Merges Data cleansing components Data mining components Standard sources Custom source Warehouse Legacy data: binary files Reports SQL Server Integration Services Application database 整合Integration Services的運作方式 • 使用Integration Services可以在作業過程將原需要資料庫處理的部分,直接處理完畢. • 所有的作業包括文字採礦、彙總、合併、資料比對等都可以整合在同一個服務中 • 分離增加資料庫與ETL工具的作業範圍,強化資料庫的高可用度 • 直接透過Integration Services進行問題的警示與回報
Data Flow Task 運作方式 設定資料源可以是多種不同來源,也可以包含客制化來源或是設定檔如 *.udl 使用轉換作業進行資料轉換如Merge、Aggregate、Sort等 資料可以根據規則進行分類或是合併如Multicast、Conditional Split等 資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取 最後資料可以同時寫入到不同的檔案格式如Excel、Flat File、Database等
資料整合 提供資料採礦與專家經驗值 提供任何專業領域的資料整合作業 模糊查閱 查詢最適切的資料 找出最佳的符合資料 去除重複 移除相似的重複性資料 “Windows XP”, “WinXP” 找出字義相同 管理緩時變維度 例如 業務組織的改變 例如 客戶的遷移改變 例如 產品目錄的改變 Integration Services新一代ETL平台的工具標準
Analysis Services • OLAP 與 Data Mining 的重要性 • 擴充的 OLAP 與 Data Mining 能力 • 更豐富的Analysis Services功能 • New Paradigm for the Analytics Platform
OLAP 市場領導者 http://www.olapreport.com
Analysis ServicesOLAP 與 Data Mining 的重要性 • 全新的商業智慧資料模型 • 大幅簡化架構且減少資料重複 • 運用UDM模型整合異質資料 • 提供從 MOLAP 到 ROLAP的完整選擇 • 豐富多元的分析範本 • 關鍵績效指標KPI • 即時、高效率 • 多種即時OLAP Cubes架構可供選擇 • 提供快速而彈性的分析架構 • XML 資料存取標準與Web Services • 整合OLAP與資料採礦 • 支援大量運算架構
UDM XML/A or ODBO Analysis Services全新的資料模型架構 Analysis Services EXCEL試算表 SQL Server Datamart BI 前端工具 DW Teradata Ad Hoc 報表 固定式報表 Oracle DB2 LOB 快取 數位儀表板
關鍵績效指標KPI • 為何需要KPI • 視覺化績效指標
定義目標 監控指標 分析問題 協同作業 Microsoft Office Business Scorecard Manager 提供組織以下的功能 • 強化的計分卡平台 • 洞悉企業問題 • 協同組織分析與協調作業 • 提供前端使用者強大分析功能 • 擴充性平台 SQL Server 2005 提供 Business Scorecard Manager 以下功能 • 集中化管理與指標 • 多維度計分卡 • 提供KPI 給前端應用程式 • 利用UDM整合資料處理
商業智慧關鍵績效指標KPI • Calculations that drive visual indicators • 快速掌握數據且便於解讀 • 設定且監控績效目標 • 監控指標隨時間變動趨勢
Data Mining • 資料採礦的重要性 • 全新資料採礦功能
決策樹 群集 貝氏機率分類 時間序列 時序群集 類神經網路 關聯規則 羅吉斯迴歸 完整的演算法 SQL Server 2000已提供 線性迴歸 文字資料採礦
Decision Tree 決策樹 • 基本觀念 • 決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係(會員數)。 • 決策樹的目標是針對類別應變數加以預測或解釋反應結果,決策樹的彈性,使得資料本身更加具吸引人的分析選項。
放大 /縮小 複製圖 Decision Tree 決策樹 採礦模型檢視器
Cluster Cluster 群集演算法 • 基本觀念 • 目的在將相似的事物歸類。可以將變數分類,但更多的應用是透過顧客特性做分類,使同類中的事物相對於某些變數來說是相同的、相似的或是同質的;而類與類之間確有著顯著的差異或是異質性。 • 主要是在檢驗某種相互依存關係,主要是顧客間特性的相似或是差異關係;透過將顧客特性進一步分割成若干類別而達到市場區隔之目的。
在群集2中,則無”0-1 Miles”的資料 在群集3中 ”0-1 Miles”的比例最高,有74% Cluster 群集演算法 群集圖表
說明: 了解各群集中,各變數的分佈比例,以圖中為例,群集2中,距離為”0-1 Miles”的有0.4%、 ”1-2 Miles”的有25.7%、 ”2-5 Miles”的有13.6%、 ”5-10 Miles”的有32%、 ”10+Miles”的有28.3% Cluster 群集演算法 群集設定檔
檢視BukeBuyer的比例及其條件式 滑鼠右鍵 觀察屬於該節點之觀測值 Cluster 群集演算法 採礦模型檢視器
Association 關聯規則演算法 • 關聯規則是分析發現資料庫中不同變數或個體間(例如商品間的關係及年齡與購買行為…)之間的關係程度(機率大小),用這些規則找出顧客購買行爲模式 • 如購買了桌上型電腦對購買其他電腦週邊商品(印表機、喇叭、硬碟..)的相關影響。 • 發現這樣的規則可以應用於商品貨架擺設、庫存安排以及根據購買行為模式對客戶進行分類。
主要目的在於了解各產品間的關聯性 Association 關聯規則演算法 相依性網路
Touring-3000 = 現有的, Water Bottle = 現有的 Road Bottle Cage = 現有的 Association 關聯規則演算法 項目