440 likes | 727 Views
Data Mining 中文介紹. 大綱. KDD 與 Data Mining Analytical CRM 的三階段方法論 線上分析 OLAP Data Mining 的功能 及建置方法簡介. KDD 與 Data Mining. 知識發掘. 知識發掘過程 Knowledge discovery in databases: 從資料庫中的資料發掘潛在的、隱含的、未知的有用知識. 知識發掘過程. 確定目標 瞭解應用領域與相關事前知識,訂定知識發掘過程的目標 資料選擇 從資料庫中選擇適當的目標資料集合,從中挖掘出希望得到的知識 資料前置處理
E N D
大綱 • KDD與Data Mining • Analytical CRM 的三階段方法論 • 線上分析OLAP • Data Mining的功能及建置方法簡介
知識發掘 • 知識發掘過程 • Knowledge discovery in databases:從資料庫中的資料發掘潛在的、隱含的、未知的有用知識
知識發掘過程 • 確定目標 • 瞭解應用領域與相關事前知識,訂定知識發掘過程的目標 • 資料選擇 • 從資料庫中選擇適當的目標資料集合,從中挖掘出希望得到的知識 • 資料前置處理 • 決定了目標資料集合後,為了完全確保資料的完整性、一致性,因此必須對資料作前置處理,其中包含基本的操作,例如去除對於應用上不相干的資料、處理遺失的資料與處理時間順序的資料等,另外資料型態、綱要、 錯誤的對應與不明確等也要進行調整
知識發掘過程 • 資料轉換 • 為了準確且有效率的挖掘出有用知識,必須將資料進行適當的資料格式轉換, 以符合執行演算法的輸入需求 • 資料採礦 • 此步驟的工作即是找出適當的資料採礦演算法來尋找希望得到的知識 • 解釋 • 在經過資料採礦的步驟得到結果後,必須解釋發現知識的特徵,若有不適當或有需要再進一步挖掘時,就要回到先前的任何步驟再執行一次,直到獲得所期望之知識。最後將知識以使用者可以了解的形式表達,使用者才能有效的使用這些知識
應用介紹:顧客知識發掘 • 尋找企業商機 • 找出潛在的、可以利用的顧客相關資料,提高企業獲利價值的機會 • ─ 新產品上市的規劃 • ─ 現有產品的定價 • ─ 目標行銷 • ─ 了解目標客戶 • ─ 了解離開客戶 • ─ 交叉行銷
顧客知識發掘(續) • 資料採礦 • 將企業商機所指出的資料作輸入,輸出可行動結果 • 實際行動 • 將結果結合企業流程實際行動 • 結果衡量 • 一般衡量:回應率、成本、利潤 • 深入衡量 例如:行銷活動是否到價值高的顧客,這些顧客是 否較忠誠,這些顧客會購買其它的產品,不同的行銷 活動找到顧客價值是否不同
Analytical CRM 的三階段方法論 • 模式( Model )-瞭解你的客戶。 • 區隔( Segment )-瞄準特定客戶行為並深入瞭解客戶區隔模式。 • 量測( Measure )-追蹤驗證客戶區隔模式將回饋這些訊息到模式流程中。 • 以下將詳述三階段方法論:
Analytical CRM 的三階段方法論 • 第一階段:模式--瞭解你的客戶 • 藉由探索現有的客戶資料,瞭解目前客戶資料的品質(data quality )來辨識客戶消費行為模式的相依性及關聯性,並進行簡易的客戶評比(scoring )、分析客戶貢獻度-執行Pareto分析及客戶分級。 • 以客戶基本變數的簡單假設檢測( hypotheses test ),預測各客戶區隔內人口統計變數的演變、預測客戶在特定客戶區隔內的加入( joining )、離開( leaving )、及停留( staying )行為的規則。
Analytical CRM 的三階段方法論 • 第二階段:區隔--區隔你的客戶 • 利用客戶區隔執行差異化的行銷活動,掌控客戶區隔間的關係變化、瞭解各客戶區隔間的互動及互斥行為模式並確立各客戶區隔內的共同行為規律。 • 研究個人化的活動行為 ( personal activity ),利用區隔關聯性推動個人化客戶回應機制( personalize customer responses )來區隔你的客戶。
Analytical CRM 的三階段方法論 • 第三階段:量測--量測行銷活動的成效 • 衡量客戶遷移( customer migration )行為,評估促銷活動的客戶參與模式、追蹤重複購買( repeat-purchase )行為的趨勢,以施行品項管理( category management )。 • 瞭解菜籃商品的組合成分( basket composition ),透過測試/控制分析( test-and-control analysis )來標定真實活動效果,以測量客戶問卷調查的反應。
Data Mining與OALP在CRM 之技術與實例探討 • 麥肯錫公司10/13/2000提出台灣的銀行現存問題 • 目前銀行業面臨台灣的客戶對銀行的忠誠度偏低,平均每人持有3.41銀行戶頭,每年有10%到15%客戶到其它銀行另開新戶等。 • 銀行金融服務項目如信用卡、存提款、房屋貸款等已是成熟化產品但57%的客戶仍喜歡與銀行的行員交易。
建議: • 開發符合客戶需求與具有差異化的金融商品,調整分行功能如服務客戶轉為具有開發業務能力,網路銀行需與現有通路進行整合。
線上分析OLAP的優缺點 • 優點: • OLAP是一個功能性強的工具,處理速度快,互動回應時間短,並且可以連續性分析,在尋找群組及概略時非常實用,亦有許多支援廠商。 • 缺點: • 不會自動查尋模式,對於連續變化的數據處理不很好。
OLAP 工具之肯定 • LOAP為全球e-Bussiness Intelligence 市場領導者,榮獲資料查詢及報表類第一名,客戶數超過11500家,成功開發合約數超過230萬個。 • LOAP是企業智慧及線上分析領域之技術領導者,2000年從全球453種BI產品評比中脫穎而出,榮獲DM Review 2000 Readership Award企業智慧類第一名。
資料採礦技術 • 資料採礦是KDD中的一個重要步驟,其目的是運用演算法在大量資料中去找出潛在的、新奇的、有趣的、異常的資料類型或知識
發掘知識之類別 • 分類知識 (Classification) • 探究已分類資料之資料特性,所以針對一個新的資料可以依這些特徵進行分類。 • 例如信用評比良好的顧客其特徵為「薪資超過50萬,年齡在35到50之間,而且居住在大城市中」,若新客戶滿足此條件,則歸類為信用良好的顧客 • 在CRM的應用上,可以用在信用卡風險分析、目標客戶特徵、客戶差異分析等
發掘知識之類別 • 預測知識 (Prediction) • 與分類知識類似,但是分類知識之結果為類別,而預測知識之結果為一連續變數值,例如收入、或信用卡風險分析之結果為0至100分(0代表無風險;100代表極端高風險) • 在CRM的應用上,可以用在估計家庭收入、估計顧客終身價值、估計顧客帳戶餘額移轉的可能性等
發掘知識之類別 • 集群知識 (Clustering) • 集群知識是將資料庫中的資料依某些屬性分為幾群,所不同於分類知識在於類別並不事先訂定,同時所用的屬性個數一般較分類知識為少 • 在CRM的應用上,可以用於顧客區隔(customer segmentation)分析
發掘知識之類別 • 關連知識 (Association) • 在資料記錄中找出多個項目同時出現的可能,例如A出現則B會一起出現 • 在CRM的應用上,可以用在行銷手法之一的market basket analysis作交叉行銷 (cross selling)
Directed vs. Undirected知識 • Directed知識:以資料之其它屬性解釋某一目標屬性,如分類知識、預測知識 • 目標屬性必須事前分類或已知數值 • 資料分割 • Training data:用來建立分類、預測模式(法則) • Test data:調整模式以避免overfitting的現象,通常Test data錯誤率用 來決定何時停止演算法 • Evaluation data:評估所得模式應用在未知資料的有效性
Directed vs. Undirected知識 • Undirected知識:找出資料潛在的特徵或型態,如集群知識、關連知識 • 通常undirected知識為發掘directed知識之序曲,所以發掘undirected知識的下一步為發掘directed知識 如目標客戶經集群分析發現後,可深入探討目標客戶所具有之特徵,或經購物籃分析後,可探討為何產品會被一起購買,誰在購買及何時購買 • 資料不需要分割 • 用全部的資料得到undirected知識,而用其他指標代表所得結果的好壞
Data Mining的意義 • Data Mining是由資料中尋找一個模式用途或結果的過程,例如尋找群組、分類、聯集、預算等。 • Data Mining之技術 • Data Mining之技術包含Decision Trees、Neural network、K-means、Kohonen network、GA、GP、Ant system、C4.5 C5、CART等等。
Data Mining • Data Mining先驅Jonattan J. Palmer認為建置Data Mining最好的方法是分期分步驟進行,以遞增式的方法開發。
Data Mining的功能 • 一般而言,Data Mining功能可包含下列六項功能(類別): • 分類(classification) • 推估(estimation) • 預測(prediction) • 關聯分組(affinity grouping)或購物籃分析 • 同質分組(clustering) (分群) • 描述(description)
Data Mining建置的四個階段 • 目標(target)設定 • Prototyping • 系統建置 • 系統移植(migration)
Data Mining建置的四個階段 • 目標(target)設定 • 研析現有的business process以確認data mining可以應用的領域,這些領域可能包括行銷、銷售、顧客服務等。 • 在此階段,從事使用者訪談、蒐集資料等工作。其次,將資料按可能使用的模型如以clearing, filtering & transformation。在此階段應產生下列各項: • 有關data mining先導計畫實施目的之說明 • 評估計畫之評估準則 • 資料整理結果及初步分析報告 • 計畫時程 • 最後目標之大綱
Data Mining建置的四個階段 • Prototyping • 從第一階段所獲致結果,使用合適的軟硬體從事系統prototype 模型之開發。在開發prototype的過程中,修正資料之整理方法的模型之建立。在本階段應完成下列各項: • Prototype模型開發系統 • data mining技術及工具之評估 • 調整business process及data mining系統整合之計畫 • data mining環境設定及開發計畫
Data Mining建置的四個階段 • 系統建置在此階段應產生下列各項: • 資料擷取及整理之程序及軟體 • data mining模型開發系統 • data mining上線之第一個版本 • solution的執行及migration plan
Data Mining建置的四個階段 • 系統移植(migration)data mining文化的建立及使用者的訓練,在此階段應產生下列項目: • data mining之上線環境 • data mining使用者清單 • business process對data mining之回應 • 系統改善計畫
Data Mining計畫的擬定 • 問題的確認以銀行活期存款帳戶流失率之估計為例,銀行希望能夠預估客戶之流失,而在尚未太遲的情況下瞭解潛在的問題。 • 資料來源一般的交易資料可能不足以用來估計銀行活期存款帳戶之流失率,必須再蒐集資料,以瞭解客戶流失之原因。 • 資料需求的界定找出針對與特定問題相關原因與象徵之資訊。以帳戶中止之解釋為例,可以列出下列資料:
Data Mining計畫的擬定 • 訪談人員需求訪談之被訪人可能包括服務中心人員,分行經理、及行銷分析人員等。從事訪談的人員則以從事流失模型建立之分析為宜。 • 模型建立模型的種類可以涵蓋簡單的OLAP,以致複雜的neural network。 • 資料整理不同的模型有不同的資料需求,資料整理方式也不同。例如在neural network模型的情況,可能要將原始資料轉換成以0至1為範圍之數列。
Data Mining計畫的擬定 • 軟體需求利用原有的交易資料及額外蒐集的資料後必須利用專業的軟體建立模型。所需要的軟體可能包括SQL queries及特殊的分析軟體。 • 資料倉儲的支援在Data mining的應用上必須以資料倉儲作為支援。因此,在建置資枓倉儲時必須考慮到Data mining的應用,例如具有關聯性及下拉式的OLAP核心對Data mining有相當大的助益。
參考文獻 • 吳培眾, Data Mining與OALP在CRM 之技術與實例探討--思訊科技股份有限公司 • M.J.A. Berry & G. Linoff : Data Mining Techniques, JohnWiley & Sons, Inc. 1997 • 叡揚資訊金融事業部, Data Mining的功能及建置方法簡介, 第12期 • 張德民與林東清講義, 2001年.