460 likes | 849 Views
資料探勘與 Modeler 使用介紹. 1. 資料分類 - C5.0 和 CR&T 模型. 2. 3. 資料集群 -K-means 和模型評估. 4. SPSS Modeler 資料探勘實務基礎. 資料關聯 -Apriori 和 Sequence. 關聯範例一 : 購物產品關聯分析. 1. 關聯範例二 : 訓練課程需求預測. 2. 3. 關聯範例四 : 網頁瀏覽行為分析. 4. 3. 資料關聯 -Apriori 和 Sequence. 關聯範例三 : 維修案例的次序分析. 資料關聯範例 一.
E N D
資料探勘與Modeler使用介紹 1 資料分類-C5.0和CR&T 模型 2 3 資料集群-K-means和模型評估 4 SPSS Modeler資料探勘實務基礎 資料關聯-Apriori和Sequence
關聯範例一:購物產品關聯分析 1 關聯範例二:訓練課程需求預測 2 3 關聯範例四:網頁瀏覽行為分析 4 3.資料關聯-Apriori和Sequence 關聯範例三:維修案例的次序分析
資料關聯範例 一 節點【Apriori】檔案 shopping.txt 786 records 15 fields
關聯法則基本概念 • 在資料探勘的領域之中,關聯性法則(association rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性。 • 在關聯性法則之使用中,Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikant 等兩位學者於1994年首先提出。 • if前項antecedent(s) then後項consequent(s)
購物產品關聯分析 • shopping.txt的欄位計有15項,產品分為10個類別分別是Ready made、Frozen Food、Alcohol 、 Fresh Vegetables、 Milk、 Bakery goods 、 Fresh meat、 Toiletries、 Snacks、Tinned Goods,有買資料值為1,沒買則資料值為0 • 基本資料包括GENDER、 AGE、 MARITAL、 CHILDREN、WORKING ( Currently employed?)
欄位的角色設定 • 【輸入】表示允許資料進入Apriori模型節點作分析,此項資料僅會在關聯規則的前項中出現。 • 【目標】表示設定資料為Apriori模型節點的輸出欄位,輸出欄位可以是連續型數值也可以是類別型資料。此項資料僅會在關聯規則的後項中出現。 • 【兩者】表示資料進入Apriori模型節點分析,此欄位中的資料可以在關聯規則的前項也可以在關聯規則的後項中出現。 • 【無】表示資料將被Apriori模型節點忽略。
關聯模型注意事項 • 建模時可以設定支援度、信心度等建模的細節,當門檻值過高而無法生成模型時,使用者須適度調整門檻值 • 執行後產生關聯規則的模型,可以查看詳細的規則內容。排序的規則有支援度(Support)、信賴度(Confidence)、規則支援% (Rule Support)、後項(Consequent)、提昇(Lift)以及可部署性(Deployability)等方式,使用者可依需求選擇
名詞解釋 以第一個關聯規則為例說明如下: • 全部總共786筆資料 • 買Milk和Frozen Food的人是85筆 • 買Bakery goods的人是337筆 • 買Milk和Frozen Food而且買Bakery goods的人是71筆 • 買Milk和Frozen Food但不買Bakery goods的人是14筆 • 後項– Bakery goods • 前項–Milk和Frozen Food • 實例– 85,即符合前項的筆數
名詞解釋 支援度–10.814=85/786,是指購買前項產品的客戶佔全部客戶的比例 信賴度 -83.529=71/85,是指購買前項產品的客戶中也買後項產品的比例 規則支援%(即支援度x信賴度)–9.033 = 10.814% x 83.529% 或= 71 / 786,指購買前項產品也買後項產品的客戶佔全部客戶的比例 提昇–1.948=(71/85)/(337/786)或 = 83.529%/42.875%,指購買後項產品佔購買前項產品的比例除以購買後項產品佔全部客戶的比例 可部署性–1.781=14/786,指購買前項產品但不買後項產品的人佔全部客戶的比例
規則組節點Alcohol產生的欄位 • 可分析符合某規則的客戶基本資料,3個規則條件不適用時,信心值為0.5,3個規則條件全符合時,信心值為(0.776+0.752+0.76)/3
資料關聯範例 二 節點【Apriori】檔案 UKtraining.txt 2136 records 26 fields
資料關聯範例 三 節點【Sequence】檔案 Telrepair.txt 750 cases 5915 records 3 fields
次序分析 • 次序(Sequence)分析的重點在於資料中必須存在先後順序的關係(例如時間) • 目前次序分析有兩種方式的,一種是只考量時間的先後順序,僅著重時間的順序作資料關聯的分析,另一種則是考量時間的區段,也就是週期性發生的類型,重點在於時間區段內的變化 • 次序分析可以提共我們針對客戶客製化行銷的預測
次序分析的名詞解釋 • 實例–48,和Apriori不同,是指符合前項且符合後項的筆數 • 支援度–15.0=75/500,是指符合前項的客戶佔全部客戶的比例 • 信賴度 – 64.0= 48/75,是指符合前項且符合後項的客戶佔符合前項客戶的比例 • 規則支援%– 9.6= 48/500,指符合前項且符合後項的客戶佔全部客戶的比例
維修案例檔案說明 • 檔案Telrepair.txt包括750個維修案例,共有 5915紀錄,3個欄位分別是ID、index1和stage • 一個ID對應一份診斷修理報告,index1紀錄著修理診斷的順序,每個階段的代碼表示一種修理診斷的動作 • 診斷開始以代碼90表示(但不完全是),成功完成修理以代碼210表示,若問題無法成功解決,則以代碼299表示 • FailTelrepair.txt則包括以代碼299結束的失敗案例
資料關聯範例四 節點【Sequence】檔案 weblog.txt 912 ID 3000 records 3 fields