300 likes | 447 Views
Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme. ChARM (Close Association Rules Mining) Références: ChARM : An efficient Algorithm for Closed Association Rule Mining ZAKI, M. j., Hsiao C.-J., 1999
E N D
Céline Frambourg - Zhao Xin WuetJean-Paul Minh Truong - Axel Van LeeuwPrésentent l'algorithme ChARM (Close Association Rules Mining) Références: ChARM : An efficient Algorithm for Closed Association Rule Mining ZAKI, M. j., Hsiao C.-J., 1999 Les entrepôts de données et l’analyse de données, GODIN, R., 2002 ChARM
L'extraction de règles d'associations s'effectue en deux étapes: • Trouver l'ensemble de tous les itemsets fréquents • Tester et extraire toutes les règles ayant une confiance élevée parmi ces itemsets. ChARM
Avantages de ChARM • Il n'est pas nécessaire d'extraire tous les itemsets fréquents, mais seulement l'ensemble des itemsets fermés frequents • Il n'est pas nécessaire d'extraire l'ensemble de toutes les règles possibles ChARM
Particularités de ChARM • Charm explore à la fois l'espace des itemsets et celui des tidsets. • ChARM utilise les opérations d’union sur les itemsets et d’intersection sur les tidsets • ChARM élague : • Les itemsets non fréquents • Les itemsets non fermés. ChARM
Quelques rappels et notions • Soit I={1,2,…,m} un ensemble d’itemsets • Soit T={1,2,…,n} un ensemble de tidsets ou d'identificateurs de transactions. • L’entrée d’une base de donnée est une relation binaire : δ I x T ChARM
Une règle d'association est une expression de la forme : • La confiance d’une règle est : ChARM
Treillis de Galois • Un treillis un ensemble ordonné non vide (P, ) dans lequel chaque couple d’éléments x,y P admet un supremum (join) (x v y) et un infimum (meet) (x y) • Un treillis est complet si tous les sous-ensemble SP admettent un supremum et un infimum ChARM
Connexion(s) de Galois • Contexte d’extraction C= (I,T, ) • Soit XI et YT alors: t: I T, t(X)={yT | xX, xy} i: T I, i(Y)={xI | yY, xy} Où : • t(X) est l'ensemble de toutes les transactions (tidset) contenant l'itemset X • i(Y) est l'itemset qui est contenu dans toutes les transactions dans Y. ChARM
Théorèmes • La règle est équivalente à la règle où q=p • Pour tout itemset X, son support est égal au support de sa fermeture ChARM
Propriétés de base pour les couples itemsets-tidsets Soit X1 et X2 deux itemsets tels que X1≤X2 qui implique que σ(X1)≤σ(X2). ChARM construit l’arbre des itemsets fermés fréquents en suivant quatre propriétés. ChARM
Première propriété Si t(X1)=t(X2) alors t(X1X2)=t(X1)t(X2)=t(X1)=t(X2). Dans ce cas, on remplace toutes les occurrences de X1 par X1X2 et on enlève X2 de toutes les considérations ultérieures. En effet, sa fermeture est la même que la fermeture de X1X2. ChARM
Deuxième propriété Si t(X1)t(X2) alors t(X1X2)=t(X1)t(X2)=t(X1)≠t(X2). Dans ce cas, on remplace toutes les occurrences de X1 par X1X2 mais on ne peut pas enlever X2 de toutes considérations ultérieures parce que t(X1)≠t(X2). ChARM
Troisième propriété Si t(X1)t(X2) alors t(X1X2)=t(X1)t(X2)=t(X2)≠t(X1). Dans ce cas, on remplace toutes les occurrences de X2 par X1X2 mais on ne peut pas enlever X1 de toutes considérations ultérieures parce que t(X2)≠t(X1). ChARM
Quatrième propriété Si t(X1)≠t(X2) alors t(X1X2)=t(X1)t(X2)≠t(X1)≠t(X2). Dans ce cas, on ne peut rien éliminer parce qu’à la fois X1 et X2 ont une fermeture différentes. Par contre, on ajoute le nœud X1X2 avec son tidset associé qui est : t(X1X2)=t(X1)t(X2) ChARM
Contexte d’extraction ChARM
{}x123456 Ax1345 Dx2456 Tx1356 Wx12345 Cx123456 Construction de l’arbre des itemsets fermés fréquents On commence par mettre les 1-itemsets ainsi que leurs tidsets associés. ChARM
{}x123456 Ax1345 Dx2456 Tx1356 Wx12345 Cx123456 ADx45 Construction de l’arbre des itemsets fermés fréquents t(A) ≠ t(D) => On utilise la propriété 4 ChARM
{}x123456 Ax1345 Dx2456 Tx1356 Wx12345 Cx123456 ADx45 Construction de l’arbre des itemsets fermés fréquents AD n’est pas un itemset fréquent donc ChARM l’élague ChARM
{}x123456 Ax1345 Dx2456 Tx1356 Wx12345 Cx123456 ATx135 Construction de l’arbre des itemsets fermés fréquents t(A) ≠ t(T) => On utilise la propriété 4 ChARM
{}x123456 AWx1345 Dx2456 Tx1356 Wx12345 Cx123456 ATWx135 Construction de l’arbre des itemsets fermés fréquents t(A) t(W) => On utilise la propriété 2 ChARM
{}x123456 ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456 ACTWx135 Construction de l’arbre des itemsets fermés fréquents t(A) t(C) => On utilise la propriété 2 ChARM
{}x123456 ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456 ACTWx135 DTx56 Construction de l’arbre des itemsets fermés fréquents t(D) ≠ t(T) => On utilise la propriété 4 ChARM
{}x123456 ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456 ACTWx135 DTx56 Construction de l’arbre des itemsets fermés fréquents DT n’est pas un itemset fréquent donc ChARM l’élague ChARM
{}x123456 ACWx1345 Dx2456 Tx1356 Wx12345 Cx123456 ACTWx135 DWx245 Construction de l’arbre des itemsets fermés fréquents t(D) ≠ t(W) => On utilise la propriété 4 ChARM
{}x123456 Tx1356 ACWx1345 CDx2456 Wx12345 Cx123456 ACTWx135 CDWx245 Construction de l’arbre des itemsets fermés fréquents t(D) t(C) => On utilise la propriété 2 ChARM
{}x123456 Tx1356 ACWx1345 CDx2456 Wx12345 Cx123456 CDWx245 TWx135 ACTWx135 Construction de l’arbre des itemsets fermés fréquents t(T) ≠ t(W) => On utilise la propriété 4 ChARM
{}x123456 Tx1356 ACWx1345 CDx2456 Wx12345 Cx123456 CDWx245 TWx135 ACTWx135 Construction de l’arbre des itemsets fermés fréquents TW ⊆ ACTW et σ(TW) = σ(ACTW) donc ChARM l’élague ChARM
{}x123456 ACWx1345 Dx2456 CTx1356 Wx12345 Cx123456 ACTWx135 DWx245 Construction de l’arbre des itemsets fermés fréquents t(T) t(C) => On utilise la propriété 2 ChARM
{}x123456 ACWx1345 Dx2456 CTx1356 CWx12345 Cx123456 ACTWx135 DWx245 Construction de l’arbre des itemsets fermés fréquents t(W) t(C) => On utilise la propriété 2 ChARM