1 / 24

Extension des bases de données inductives pour la découverte de chroniques

Extension des bases de données inductives pour la découverte de chroniques. Alexandre Vautier, René Quiniou et Marie-Odile Cordier. !. + Contrainte temporelle. A. B. [2,3]. [0,3]. [-1,0]. A. A. A. B. B. B. Une petite illustration…. … sur 2 séquences d’évènements.

vanya
Download Presentation

Extension des bases de données inductives pour la découverte de chroniques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extension des bases de données inductives pour la découverte de chroniques Alexandre Vautier, René Quiniou et Marie-Odile Cordier

  2. ! + Contrainte temporelle A B [2,3] [0,3] [-1,0] A A A B B B Une petite illustration… … sur 2 séquences d’évènements • Trouver des motifs temporels • Fréquents dans D1 (selon un seuil de 3) • Non fréquents dans D2 (selon un seuil de 2) • Motifs : • Évènements ? : 5 dans D1 et 5 dans D2 : 5 dans D1 et 3 dans D2 • Ensemble d’évènements ? { , } • Contrainte temporelle : intervalle [dmin, dmax] D1: B B B A A A B A B A D2: A A B A B A B A A B ) A B …?

  3. Introduction • Fouille de données temporelles • Complexité due à l’introduction du temps numérique • Base de données inductives • Un cadre formel de la fouille de données intégrer le temps dans une BDI

  4. Plan • Introduction • Base de données inductive et chroniques • Relation d’ordre - fréquence • Traitement d’une requête • Algorithme de Mitchell • FACE : un outil de fouille de données temporelles

  5. m : motifs cibles à déterminer D1, D2 : données T… : fréquence M1 : motifs Base de données inductives • Une formalisation de la fouille de données • Donne un cadre au processus d’extraction de connaissances • Une base de données et de motifs • La fouille de données est vue comme un processus d’extraction par requête • Exemple de requêtes atomiques sur les motifs et les données : Fréquence(m,D1) > Tmin Fréquence(m,D2) < Tmax Sous-motif(m,M1) Sous-motif(M1,m) • Requêtes : formule logique de requêtes atomiques

  6. Processus d’Extraction des connaissances dans les Bases de données Volume de donnéesConnaissances Interprétation/ Evaluation Fouille de données Transformation Connaissances Prétraitement Modèles Sélection Données transformées Données prétraitées Données sélectionnées Entrepôt de données Etapes d’un processus ECD [Fayyad et al. 1996]

  7. A,1 C,5 B,8 C,10 A,15 A,16 B,26 B,27 C,34 Instances [5;10] B,t1 A,t0 C,t2 [-2;20] Les données : séquences d’évènements Les motifs : chroniques • Séquence d’évènements : liste d’évènements ordonnés • Chronique : ensemble d’évènements contraints temporellement • Évènements de même type : • Contrainte temporelle : [dmin,dmax] dmin,dmax2Z C,t3 C,t34 A,t0 B,t1 B,t2

  8. [5;10] B,t1 A,t0 B,t2 [9;20] v [8;21] B,t1 A,t0 Relation de généralité C plus générale que C’ (C v C’) ,Il existe un sous-graphe de C’ tel que toutes les contraintes de C sont égales ou plus larges que celles de ce sous-graphe. C C’

  9. Requêtes sur la fréquence • freq(m,D) · T • Fréquence des motifs m inférieure ou égale à T • freq(m,D) ¸T • Fréquence des motifs m supérieure ou égale à T • Deux ensembles de séquences P et N • (9 L 2 P freq(m,D) ¸ TD)Æ (8 L 2 N freq(m,L) · TD) on continue avec deux séquences…

  10. C v C’ C’ w C Fréquence et relation d’ordre • Contrainte monotone • Ex : freq(m,D) · T • C 2 m Æ C’ v C ) C’ 2 m • Freq(C’) · Freq(C) • Contrainte anti-monotone • Ex : freq(m,D) ¸T • C 2 m Æ C’ v C ) C’ 2 m • Freq(C’) ¸ Freq(C)

  11. D: C: i1 i3 i6 i2 i4 Instances i5 Fréquence d’une chronique • IC(D) = {i1, i2, i3, i4, i5, i6} • Critère de reconnaissance Q • E µ IC(D), Q(E) ) Freq(C,D) = |E| • Exemple de critère : • Qd&t: critère d’instances disjointes au plus tôt E = {i1, i3, i6} ) Freq(C,D) = 3 • E est unique • (Anti)monotonie des contraintes sur la fréquence

  12. freq(m,D1) · T1Æfreq(m,D2) ¸ T2 m Traitement d’une requête • freq(m,D1) ¸ T1Æfreq(m,D2) · T2 T Maximalement général Le calcul des bords suffit Maximalement spécifique Espace des versions ?

  13. T ? Calcul des bords de l’espace des versions • freq(m,D1) ¸ T1Æfreq(m,D2) < T2 • Algorithme de Mitchell freq(m2,D2) ¸ T2 + freq(m,D2) < T2 Æ freq(m,D1) ¸ T1 freq(m1,D1) ¸ T1 Utilisation des Chroniques Maximalement spécifiques et Fréquentes (CMFs)

  14. FACEFrequency Analyser for Chronicle Extraction [Dousson & Thang Vu Duong] • Principe : • Freq(m,D) ¸ T • Contrainte Anti-monotone • Une chronique peut être fréquente si toutes ses sous-chroniques sont fréquentes. Chroniques représentatives Séquence d’évènements FACE

  15. Reconnaissance dans la séquence d’évènements Raffinage des chroniques fréquentes Algorithme de FACE n=1 Génération de chroniques de taille n n=n + 1 Aucune chronique fréquente

  16. FACE……Un outil de fouille de données • Optimisé pour la génération d’un nombre minimum de chroniques • Synthèse efficace  recherche des CMFs • Néglige les contraintes temporelles • Un extracteur complet et correct d’instances ! • À partir des instances reconnues on peut retrouver les chroniques maximalement spécifiques et fréquentes (CMFs)

  17. Adaptation de l’algorithme FACE Reconnaissance dans la séquence d’évènements n=1 Génération de chroniques de taille n Raffinage des chroniques fréquentes Spécialisation des Contraintes temporelles n=n + 1 Aucune chronique fréquente

  18. Raffinage pour résultats • ,Recherche des motifs fréquents sur des données numériques • Très coûteux : en temps, en espace • Introduction d’un nouveau critère d’intérêt : la densité • Meilleure caractérisation des chroniques intéressantes • Réduction du nombre de CMFs • Utilisation et adaptation d’algorithmes de clustering • Basé sur la densité, algorithmes hiérarchiques…

  19. Conclusion • Extension d’une BDI à la recherche de motifs intégrant une notion temporelle • Nécessité de calculer seulement les CMFs de chaque séquence d’évènements • Formalisation de la notion de chronique • Relation d’ordre • Fréquence, critère de reconnaissance • Utilisation d’un outil de fouille de données existant : FACE Les BDIs : une formidable façon de structurer la fouille de données

  20. Perspectives • Poursuivre la réalisation des bases de données inductives étendues au temps • Utilisation d’autres mesures d’intérêt • Autre que la fréquence • Permettre à l’utilisateur de spécifier le niveau de complétude désirée • Application dans le domaine de la détection d’intrusions dans les réseaux de télécommunications

  21. pour la découverte de chroniques Extension des BDIs Alexandre Vautier, René Quiniou, Marie-Odile Cordier

  22. T = 4 x x x x x x x Raffinage pour résultats • Une instance , un point • Une chronique , un hypercube • Rechercher les hypercubes minimaux englobant au moins T points • Très coûteux • En temps • En espace • Recherche des motifs fréquents sur des données numériques

  23. Densité des CMFs (1) • Chronique intéressante : • Fréquente • Maximalement spécifique • dense Une CMF non dense x x x x x x x x x x x x x x Une CMF dense x x x x x x x x x x x x x x T = 4

  24. Base de données inductive (2) • Son origine [Imielinski et Mannila, 1996] • Base de données : gérer les applications de stockage des données • BDI : gérer les applications de découverte de connaissances • Le temps : attribut complexe à gérer • Apport des BDIs : leur formalisme

More Related