Microsoft SQL Server 中的資料採礦模型

14 Microsoft SQL Server中的資料採礦模型關聯規則演算法

14-1 基本概念 • 關聯規則是分析發現資料庫中不同變數或個體間(例如商品間的關係及年齡與購買行為…)之間的關係程度(機率大小)，用這些規則找出顧客購買行爲模式 • 如購買了桌上型電腦對購買其他電腦週邊商品(印表機、喇叭、硬碟..)的相關影響。 • 發現這樣的規則可以應用於商品貨架擺設、庫存安排以及根據購買行為模式對客戶進行分類。

14-1 基本概念 • 關聯規則中有三個重要的參數，分別為支持度(Support)、信賴度(Confidence)與興趣度(Interesting) 。 • 支持度 • 支持度就是同時發生X、Y事件的機率。 • 信賴度 • 信賴度就是在X事件發生的情況下，Y事件發生的機率。 • 興趣度 • 興趣度= • 當興趣度大於1的時候，這條規則就是比較好的

14-2 關聯規則的種類 • 關聯規則的種類 • 基於規則中處理的變數類別，可分爲布林型和數值型 • 布林型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關係； • 數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的資料進行處理，當然數值型關聯規則中也可以包含種類變數。 • 例如：性別=“女”職業=“秘書” ，是布林型關聯規則；性別=“女”avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。

14-2 關聯規則的種類 • 關聯規則的種類 • 基於規則中資料的抽象層次，可以分爲單層關聯規則和多層關聯規則。 • 在單層的關聯規則中，所有的變數都沒有考慮到現實的資料是具有多個不同的層次的；而在多層的關聯規則中，對資料的多層性已經進行了充分的考慮。 • 例如：IBM臺式機Sony印表機，是一個細節資料上的單層關聯規則；臺式機Sony印表機，是一個較高層次和細節層次之間的多層關聯規則。

14-2 關聯規則的種類 • 關聯規則的種類 • 基於規則中涉及到的資料的維數，關聯規則可以分爲單維的和多維的。 • 在單維關聯規則中，只涉及到資料的一個維，如用戶購買的物品，單維關聯規則是處理單個屬性中的一些關係 • 在多維關聯規則中，要處理的資料將會涉及多個維，多維關聯規則是處理各個屬性之間的某些關係。 • 例如：啤酒尿布，這條規則只涉及到用戶的購買的物品；性別=“女”職業=“秘書”，這條規則就涉及到兩個欄位的資訊，是兩個維上的一條關聯規則。

14-3 關聯規則的演算法：Apriori演算法 • 關聯規則的演算法：Apriori 演算法 • 此方法為研究關聯式法則的入門演算法，可說是研究關聯式法則時最具代表性的演算法之一。

14-3 關聯規則的演算法：Apriori演算法 • 執行步驟 • (1) 須訂定最小支持度及最小信賴度。 • (2)Apriori演算法使用了候選物項集合的觀念，首先產生出物項集合，稱為候選物項集合，若候選物項集合的支持度大於或等於最小支持度，則該候選物項集合為高頻物項集合(Large Itemset)。

14-3 關聯規則的演算法：Apriori演算法 • 執行步驟 • (3)在Apriori演算法的過程中，首先由資料庫讀入所有的交易，得出候選單物項集合(Candidate 1-itemset)的支持度，再找出高頻單物項集合(Large 1-itemset)，並利用這些高頻單物項集合的結合，產生候選２物項集合(Candidate 2-itemset)。

14-3 關聯規則的演算法：Apriori演算法 • 執行步驟 • (4)再掃描資料庫，得出候選2物項集合的支持度以後，再找出高頻2物項集合，並利用這些高頻2物項集合的結合，產生候選3物項集合。 • (5)重覆掃描資料庫、與最小支持度比較，產生高頻物項集合，再結合產生下一級候選物項集合，直到不再結合產生出新的候選物項集合為止。

14-3 關聯規則的演算法：Apriori演算法 • 優點： • 簡單易懂，容易實現。 • 缺點： • 因計算物項過多而造成執行能緩慢，主要的原因在於高頻物項集合產生過多的候選物項集合，尤其是候選2物項集合的情況最為嚴重。

14-3 關聯規則的演算法：Apriori演算法 • Microsoft關聯規則建立規則來描述哪些項目最可能同時出現在交易中。規則可基於交易中的其他項目，來預測某項目出現與否。 • 注意重點 • 建議先進行群集分析再進行關聯規則比較有意義 • 需事先剔除必然關聯組合 • 注意人為因素(佣金、行銷組合) • 需注意季節因素

13-4 操作示例 • 演算法參數 • Maximum_Itemset_Count • Maximum_Itemset_Size • Maximun_Support • Minimum_Importance • Minimum_Itemset_Size • Minimum_Probability • Minimum_Support

13-4 操作示例 • Maximum_Itemset_Count • 敘述： • 要產生的最大項目集數目。 • 如果沒有指定數目，演算法會產生所有可能的項目集。 • Maximum_Itemset_Size • 敘述： • 指定一個項目集內所允許的最大項目數目。 • 將此值設定為 0，即代表項目集沒有大小限制。 • 表示必須條件式之產品個數最大值。

13-4 操作示例 • Maximun_Support • 敘述： • 指定一個項目集可以支援的最大案例數目。 • 如果此值小於 1，代表總案例的百分比。 • 值大於 1 則代表可以包含項目集的絕對案例數目。 • Minimum_Importance • 敘述： • 指定關聯規則的重要性臨界值。 • 重要性低於此值的規則會被篩選出來。

13-4 操作示例 • Minimum_Itemset_Size • 敘述： • 指定項目集所允許的最小項目數目。 • Minimum_Probability • 敘述： • 指定規則為 True 的最小機率。 • 若將此值設定為 0.5 是指定不產生機率小於 50% 的規則。

13-4 操作示例 • Minimum_Support • 敘述： • 指定在產生規則之前，須包含該項目集案例的最小數目。 • 設定此值小於 1 代表最小案例數目為總案例的百分比。 • 設定此值為大於 1 的整數則代表最小案例數目為必須包含該項目集的最小案例絕對數目。 • 如果可用的記憶體有限，演算法可能會增加此參數的值。

13-4 操作示例 • 實例分析-以腎細胞癌資料為例

患者的年齡歲=60, 腎細胞癌分期=3  腎細胞癌轉移情況=有轉移 13-4 操作示例規則

13-4 操作示例 相依性網路主要目的在於了解各變數間的關聯性

本章結束

Microsoft SQL Server 中的資料採礦模型