一個快速探勘高效益項目集的演算法吸附式探勘演算法

一個快速探勘高效益項目集的演算法吸附式探勘演算法一個快速探勘高效益項目集的演算法吸附式探勘演算法論文作者：顏秀珍、陳家慶、李御璽簡報報告：陳家慶 (Chen-Chia, Ching) TAAI 2010 第十五屆人工智慧與應用研討會 2010/11/18 Session:DM1

高利潤商品探勘VS傳統商品探勘 牛奶、麵包香菸、洋酒

項目利潤表 交易資料表各項目的TWU與支持數 TU(T1) ={A:1, C:3, F:1}=1X7+3X5+1X13=35 TWU(A) =TU(T1)+TU(T3)+TU(T5)+TU(T9) =35+85+36+63=219

目前最有效率的演算法HUC-Prune • 由C. F. Ahmed, S. K. Tanbeer, B.-S. Jeong and Y.-K. Lee提出(PAKDD 2009) • 利用FP-Growth 演算法，只需要三次掃描資料庫，但是仍有候選項目集過多的問題

{} 130 D 293 36 B C Header Table： 42 95 99 152 C D E E 108 D E A A 44 A 36 35 85 63 A

{C} Header Table： 152 B 建立{C}的條件樹 {D} Header Table： {CD} Header Table： 207 108 B B 108 C 建立{CD}的條件樹建立{D}的條件樹

{E} Header Table： 86 95 C B 44 C 建立{E}的條件樹 {EC} Header Table： 44 B 建立{EC}的條件樹

{A} 148 B D C Header Table： 36 35 D C 85 63 D 85 建立{A}的條件樹

{AD} Header Table： {AC} Header Table： 148 85 B B 85 C 建立{AC}的條件樹建立{AD}的條件樹

經由HUC-Prune得到候選項目集為 {A} {B} {C} {D} {E} {EC} {AB} {CB}{DB}{DC}{AC} {AD} {ADB} 經由第二次掃描資料庫得到高效益項目集為 • {A}{B} {C} {D}{E} • {EC}{AB}{CB}{DB}{DC}{AC}{AD} • {ADB}

吸附式探勘演算法Adsorptive Mining Algorithm 不產生任何的候選項目集提出一個更接近項目集效益的估計值

項目效益表： {} +15 +7 C +15 +7 Header Table： C:15A:7 A T1={A:1,C:3}={A:1X7,C:3X5}={A:7,C:15}

項目效益表： {} +8 +5 +8+5 B C Header Table： B: +8D: +5 D C:15A:7 A

項目效益表： {} +4 +7 +25 +49 +4+7+25+49 B C +4+7 +4+7+25 Header Table： +4 +7 B:8 D:5 D C:15A:7 B: +4D: +7C: +25 C A B: +4D: +7C: +25A: +49 A

項目效益表： {} High Utility ItemSet B D C High Closure Utility ItemSet Header Table： C:25E:70 B:2E:40 B:4C:10 B:44D:23 D C E E B:14D:10C:35 C:15A:7 C A A A E D:9A:14 B:4D:7C:25A:49 B:2D:5A:56 A B:4C:10E:30

C:15A:7 A A A D:9A:14 B:4D:7C:25A:49 B:2D:5A:56 A

項目效益表： +49 +49 +49+4 +7 +25 +49+4+7 +49+4+7+25 {A} B Header Table： A:49B:4D:7 D A:49B:4D:7C:25 C

項目效益表： +56 +56 +2 +5 {A} +56+2+5 B Header Table： A:49B:4D:7 +56+2+5 D A:49B:4D:7C:25 C

項目效益表： +14 +9 {A} D B Header Table： A:49B:4D:7 D A:49B:4D:7C:25 C

項目效益表： +14 +9 {A} D B C Header Table： A:105B:6D:12 D A:49B:4D:7C:25 C

項目效益表： {A} D B C Header Table： A:105B:6D:12 D C A:49B:4D:7C:25

項目效益表： {AD} Header Table： B

項目效益表： {E} Header Table： C B E:30B:4C:10 C

效益分配圖

候選高效益項目集與實際高效益個數

T10I4D100K實驗結果

T20I6D100K實驗結果

Chess的候選項目集個數 Mushroom的候選項目集個數

Chess實驗結果

Mushroom實驗結果

結論不需要產生候選項目集，直接輸出探勘結果 AM演算法無論在人造資料或是緊密資料庫具有極佳的處理效率

一個快速探勘高效益項目集的演算法 吸附式探勘演算法