310 likes | 437 Views
一個快速探勘高效益項目集的演算法 吸附式探勘演算法. 論文作者:顏秀珍、陳家慶、李御璽 簡報報告:陳家慶 (Chen-Chia, Ching) TAAI 2010 第十五屆人工智慧與應用研討會 2010/11/18 Session:DM1. 高 利潤商品探勘 VS 傳統商品探勘. 牛奶、麵包. 香菸、洋酒. 項目利潤表. 交易資料表. 各項目的 TWU 與支持數. TU(T1) ={A:1, C:3, F:1}=1X7+3X5+1X13=35. TWU(A) =TU(T1)+TU(T3)+TU(T5)+TU(T9) =35+85+36+63=219.
E N D
一個快速探勘高效益項目集的演算法吸附式探勘演算法一個快速探勘高效益項目集的演算法吸附式探勘演算法 論文作者:顏秀珍、陳家慶、李御璽 簡報報告:陳家慶 (Chen-Chia, Ching) TAAI 2010 第十五屆人工智慧與應用研討會 2010/11/18 Session:DM1
高利潤商品探勘VS傳統商品探勘 牛奶、麵包 香菸、洋酒
項目利潤表 交易資料表 各項目的TWU與支持數 TU(T1) ={A:1, C:3, F:1}=1X7+3X5+1X13=35 TWU(A) =TU(T1)+TU(T3)+TU(T5)+TU(T9) =35+85+36+63=219
目前最有效率的演算法HUC-Prune • 由C. F. Ahmed, S. K. Tanbeer, B.-S. Jeong and Y.-K. Lee提出(PAKDD 2009) • 利用FP-Growth 演算法,只需要三次掃描資料庫,但是仍有候選項目集過多的問題
{} 130 D 293 36 B C Header Table: 42 95 99 152 C D E E 108 D E A A 44 A 36 35 85 63 A
{C} Header Table: 152 B 建立{C}的條件樹 {D} Header Table: {CD} Header Table: 207 108 B B 108 C 建立{CD}的條件樹 建立{D}的條件樹
{E} Header Table: 86 95 C B 44 C 建立{E}的條件樹 {EC} Header Table: 44 B 建立{EC}的條件樹
{A} 148 B D C Header Table: 36 35 D C 85 63 D 85 建立{A}的條件樹
{AD} Header Table: {AC} Header Table: 148 85 B B 85 C 建立{AC}的條件樹 建立{AD}的條件樹
經由HUC-Prune得到候選項目集為 {A} {B} {C} {D} {E} {EC} {AB} {CB}{DB}{DC}{AC} {AD} {ADB} 經由第二次掃描資料庫得到高效益項目集為 • {A}{B} {C} {D}{E} • {EC}{AB}{CB}{DB}{DC}{AC}{AD} • {ADB}
吸附式探勘演算法Adsorptive Mining Algorithm 不產生任何的候選項目集 提出一個更接近項目集效益的估計值
項目效益表: {} +15 +7 C +15 +7 Header Table: C:15A:7 A T1={A:1,C:3}={A:1X7,C:3X5}={A:7,C:15}
項目效益表: {} +8 +5 +8+5 B C Header Table: B: +8D: +5 D C:15A:7 A
項目效益表: {} +4 +7 +25 +49 +4+7+25+49 B C +4+7 +4+7+25 Header Table: +4 +7 B:8 D:5 D C:15A:7 B: +4D: +7C: +25 C A B: +4D: +7C: +25A: +49 A
項目效益表: {} High Utility ItemSet B D C High Closure Utility ItemSet Header Table: C:25E:70 B:2E:40 B:4C:10 B:44D:23 D C E E B:14D:10C:35 C:15A:7 C A A A E D:9A:14 B:4D:7C:25A:49 B:2D:5A:56 A B:4C:10E:30
C:15A:7 A A A D:9A:14 B:4D:7C:25A:49 B:2D:5A:56 A
項目效益表: +49 +49 +49+4 +7 +25 +49+4+7 +49+4+7+25 {A} B Header Table: A:49B:4D:7 D A:49B:4D:7C:25 C
項目效益表: +56 +56 +2 +5 {A} +56+2+5 B Header Table: A:49B:4D:7 +56+2+5 D A:49B:4D:7C:25 C
項目效益表: +14 +9 {A} D B Header Table: A:49B:4D:7 D A:49B:4D:7C:25 C
項目效益表: +14 +9 {A} D B C Header Table: A:105B:6D:12 D A:49B:4D:7C:25 C
項目效益表: {A} D B C Header Table: A:105B:6D:12 D C A:49B:4D:7C:25
項目效益表: {AD} Header Table: B
項目效益表: {E} Header Table: C B E:30B:4C:10 C
Chess的候選項目集個數 Mushroom的候選項目集個數
結論 不需要產生候選項目集,直接輸出探勘結果 AM演算法無論在人造資料或是緊密資料庫具有極佳的處理效率