1 / 23

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel. Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille. Plan. Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel

waneta
Download Presentation

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille

  2. Plan • Nécessité d’un espace de recherche pour le data mining multidimensionnel • Treillis relationnel • Treillis relationnel contraint • Treillis relationnel vs Datacube • Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 2

  3. 1. Nécessité d’un espace de recherche pour le data mining multidimensionnel • Problème de la transformation d’une relation d’attributs catégories en une relation binaire • Treillis des parties : une structure mal adaptée au contexte multidimensionnel • Non préservation de la complexité des algorithmes par niveaux Casali, Cicchetti, Lakhal : Treillis Relationnel 3

  4. Exemple: Casali, Cicchetti, Lakhal : Treillis Relationnel 4

  5. Treillis des attributs binaires : Mais toutes les solutions ne sont pas valides Casali, Cicchetti, Lakhal : Treillis Relationnel 5

  6. Plan • Nécessité d’un espace de recherche pour le data mining multidimensionnel • Treillis relationnel • Treillis relationnel contraint • Treillis relationnel vs Datacube • Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 6

  7. 2. Treillis relationnel r : relation de schéma 2.1 Espace multidimensionnel tuple = élément de space(r) = motif multidimensionnel ex: <S,ALL,ALL> et <S,A,ALL> 2.2 Ordre de généralisation On munit space(r) de l’ordre de généralisation g ex: <S,ALL,ALL> g <S,A,ALL> Casali, Cicchetti, Lakhal : Treillis Relationnel 7

  8. 2.3 Opérateurs de base (a) La Somme ?  ALL Casali, Cicchetti, Lakhal : Treillis Relationnel 8

  9. (b) Le Produit Casali, Cicchetti, Lakhal : Treillis Relationnel 9

  10. 2.4 Caractérisation du treillis relationnel Théorème: soit r une relation d’attributs catégories sur .L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel : Casali, Cicchetti, Lakhal : Treillis Relationnel 10

  11. 2.5 Treillis relationnel vs Treillis des parties Casali, Cicchetti, Lakhal : Treillis Relationnel 11

  12. Plan • Nécessité d’un espace de recherche pour le data mining multidimensionnel • Treillis relationnel • Treillis relationnel contraint • Treillis relationnel vs Datacube • Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 12

  13. 3. Treillis relationnel contraint 3.1 Définition des contraintes Une contrainte cont est anti-monotone w.r.t. g ssi Une contrainte cont est monotone w.r.t. g ssi Casali, Cicchetti, Lakhal : Treillis Relationnel 13

  14. 3.2 Structure convexe « garantie » Théorème: le treillis relationnel contraint est un espace convexe (représentable par bordures) dans lequel la borne maximale S+cont et la borne minimale G+cont sont: 1. Si cont = cmc, G+ = min ({t  RL(r) : cmc(t)} ) et S+=<Ø,…Ø> 2. Si cont = camc, G+=<ALL,…,ALL> et S+ = max({t  RL(r) : camc(t)}) 3. Si cont = chc, G+ = min({t  RL(r) :chc(t)}) et S+ = max({t  RL(r) : chc(t)}) Casali, Cicchetti, Lakhal : Treillis Relationnel 14

  15. 3.3 Exemples de contraintes (a) Fréquence Freq(t)  minfreq est une contrainte anti-monotone et Freq(t)  maxfreq est une contrainte monotone. (b) Fréquence de la disjonction Freq(vt)  minfreq est une contrainte monotone et Freq(vt)  maxfreq est une contrainte anti-monotone. Casali, Cicchetti, Lakhal : Treillis Relationnel 15

  16. 3.4 Exactitude des solutions (a) freq(t)  3/11 (contrainte anti-monotone) Algorithme par niveau binaire donne le même résultat ? Casali, Cicchetti, Lakhal : Treillis Relationnel 16

  17. (b) freq(t)  4/11 (contrainte monotone) Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte. Casali, Cicchetti, Lakhal : Treillis Relationnel 17

  18. (c) freq(Vt)  6/11 (contrainte anti-monotone) Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0 Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire. Casali, Cicchetti, Lakhal : Treillis Relationnel 18

  19. Plan • Nécessité d’un espace de recherche pour le data mining multidimensionnel • Treillis relationnel • Treillis relationnel contraint • Treillis relationnel vs Datacube • Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 19

  20. 4. Treillis relationnel vs Datacube • Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel. • RL(r) = Datacube( ) + ordre de généralisation + opérateurs Produit et Somme Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube Casali, Cicchetti, Lakhal : Treillis Relationnel 20

  21. Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube. • Premiers résultats (VLDB’02) : Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube. Casali, Cicchetti, Lakhal : Treillis Relationnel 21

  22. Plan • Nécessité d’un espace de recherche pour le data mining multidimensionnel • Treillis relationnel • Treillis relationnel contraint • Treillis relationnel vs Datacube • Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 22

  23. 5. Perspectives • Treillis relationnel fermé • Espace de version • Espace de version émergent ( 2 Datacubes) • Représentations concises/condensées du treillis relationnel contraint Casali, Cicchetti, Lakhal : Treillis Relationnel 23

More Related