240 likes | 328 Views
Extension des bases de données inductives pour la découverte de chroniques. Alexandre Vautier, René Quiniou et Marie-Odile Cordier. !. + Contrainte temporelle. A. B. [2,3]. [0,3]. [-1,0]. A. A. A. B. B. B. Une petite illustration…. … sur 2 séquences d’évènements.
E N D
Extension des bases de données inductives pour la découverte de chroniques Alexandre Vautier, René Quiniou et Marie-Odile Cordier
! + Contrainte temporelle A B [2,3] [0,3] [-1,0] A A A B B B Une petite illustration… … sur 2 séquences d’évènements • Trouver des motifs temporels • Fréquents dans D1 (selon un seuil de 3) • Non fréquents dans D2 (selon un seuil de 2) • Motifs : • Évènements ? : 5 dans D1 et 5 dans D2 : 5 dans D1 et 3 dans D2 • Ensemble d’évènements ? { , } • Contrainte temporelle : intervalle [dmin, dmax] D1: B B B A A A B A B A D2: A A B A B A B A A B ) A B …?
Introduction • Fouille de données temporelles • Complexité due à l’introduction du temps numérique • Base de données inductives • Un cadre formel de la fouille de données intégrer le temps dans une BDI
Plan • Introduction • Base de données inductive et chroniques • Relation d’ordre - fréquence • Traitement d’une requête • Algorithme de Mitchell • FACE : un outil de fouille de données temporelles
m : motifs cibles à déterminer D1, D2 : données T… : fréquence M1 : motifs Base de données inductives • Une formalisation de la fouille de données • Donne un cadre au processus d’extraction de connaissances • Une base de données et de motifs • La fouille de données est vue comme un processus d’extraction par requête • Exemple de requêtes atomiques sur les motifs et les données : Fréquence(m,D1) > Tmin Fréquence(m,D2) < Tmax Sous-motif(m,M1) Sous-motif(M1,m) • Requêtes : formule logique de requêtes atomiques
Processus d’Extraction des connaissances dans les Bases de données Volume de donnéesConnaissances Interprétation/ Evaluation Fouille de données Transformation Connaissances Prétraitement Modèles Sélection Données transformées Données prétraitées Données sélectionnées Entrepôt de données Etapes d’un processus ECD [Fayyad et al. 1996]
A,1 C,5 B,8 C,10 A,15 A,16 B,26 B,27 C,34 Instances [5;10] B,t1 A,t0 C,t2 [-2;20] Les données : séquences d’évènements Les motifs : chroniques • Séquence d’évènements : liste d’évènements ordonnés • Chronique : ensemble d’évènements contraints temporellement • Évènements de même type : • Contrainte temporelle : [dmin,dmax] dmin,dmax2Z C,t3 C,t34 A,t0 B,t1 B,t2
[5;10] B,t1 A,t0 B,t2 [9;20] v [8;21] B,t1 A,t0 Relation de généralité C plus générale que C’ (C v C’) ,Il existe un sous-graphe de C’ tel que toutes les contraintes de C sont égales ou plus larges que celles de ce sous-graphe. C C’
Requêtes sur la fréquence • freq(m,D) · T • Fréquence des motifs m inférieure ou égale à T • freq(m,D) ¸T • Fréquence des motifs m supérieure ou égale à T • Deux ensembles de séquences P et N • (9 L 2 P freq(m,D) ¸ TD)Æ (8 L 2 N freq(m,L) · TD) on continue avec deux séquences…
C v C’ C’ w C Fréquence et relation d’ordre • Contrainte monotone • Ex : freq(m,D) · T • C 2 m Æ C’ v C ) C’ 2 m • Freq(C’) · Freq(C) • Contrainte anti-monotone • Ex : freq(m,D) ¸T • C 2 m Æ C’ v C ) C’ 2 m • Freq(C’) ¸ Freq(C)
D: C: i1 i3 i6 i2 i4 Instances i5 Fréquence d’une chronique • IC(D) = {i1, i2, i3, i4, i5, i6} • Critère de reconnaissance Q • E µ IC(D), Q(E) ) Freq(C,D) = |E| • Exemple de critère : • Qd&t: critère d’instances disjointes au plus tôt E = {i1, i3, i6} ) Freq(C,D) = 3 • E est unique • (Anti)monotonie des contraintes sur la fréquence
freq(m,D1) · T1Æfreq(m,D2) ¸ T2 m Traitement d’une requête • freq(m,D1) ¸ T1Æfreq(m,D2) · T2 T Maximalement général Le calcul des bords suffit Maximalement spécifique Espace des versions ?
T ? Calcul des bords de l’espace des versions • freq(m,D1) ¸ T1Æfreq(m,D2) < T2 • Algorithme de Mitchell freq(m2,D2) ¸ T2 + freq(m,D2) < T2 Æ freq(m,D1) ¸ T1 freq(m1,D1) ¸ T1 Utilisation des Chroniques Maximalement spécifiques et Fréquentes (CMFs)
… FACEFrequency Analyser for Chronicle Extraction [Dousson & Thang Vu Duong] • Principe : • Freq(m,D) ¸ T • Contrainte Anti-monotone • Une chronique peut être fréquente si toutes ses sous-chroniques sont fréquentes. Chroniques représentatives Séquence d’évènements FACE
Reconnaissance dans la séquence d’évènements Raffinage des chroniques fréquentes Algorithme de FACE n=1 Génération de chroniques de taille n n=n + 1 Aucune chronique fréquente
FACE……Un outil de fouille de données • Optimisé pour la génération d’un nombre minimum de chroniques • Synthèse efficace recherche des CMFs • Néglige les contraintes temporelles • Un extracteur complet et correct d’instances ! • À partir des instances reconnues on peut retrouver les chroniques maximalement spécifiques et fréquentes (CMFs)
Adaptation de l’algorithme FACE Reconnaissance dans la séquence d’évènements n=1 Génération de chroniques de taille n Raffinage des chroniques fréquentes Spécialisation des Contraintes temporelles n=n + 1 Aucune chronique fréquente
Raffinage pour résultats • ,Recherche des motifs fréquents sur des données numériques • Très coûteux : en temps, en espace • Introduction d’un nouveau critère d’intérêt : la densité • Meilleure caractérisation des chroniques intéressantes • Réduction du nombre de CMFs • Utilisation et adaptation d’algorithmes de clustering • Basé sur la densité, algorithmes hiérarchiques…
Conclusion • Extension d’une BDI à la recherche de motifs intégrant une notion temporelle • Nécessité de calculer seulement les CMFs de chaque séquence d’évènements • Formalisation de la notion de chronique • Relation d’ordre • Fréquence, critère de reconnaissance • Utilisation d’un outil de fouille de données existant : FACE Les BDIs : une formidable façon de structurer la fouille de données
Perspectives • Poursuivre la réalisation des bases de données inductives étendues au temps • Utilisation d’autres mesures d’intérêt • Autre que la fréquence • Permettre à l’utilisateur de spécifier le niveau de complétude désirée • Application dans le domaine de la détection d’intrusions dans les réseaux de télécommunications
pour la découverte de chroniques Extension des BDIs Alexandre Vautier, René Quiniou, Marie-Odile Cordier
T = 4 x x x x x x x Raffinage pour résultats • Une instance , un point • Une chronique , un hypercube • Rechercher les hypercubes minimaux englobant au moins T points • Très coûteux • En temps • En espace • Recherche des motifs fréquents sur des données numériques
Densité des CMFs (1) • Chronique intéressante : • Fréquente • Maximalement spécifique • dense Une CMF non dense x x x x x x x x x x x x x x Une CMF dense x x x x x x x x x x x x x x T = 4
Base de données inductive (2) • Son origine [Imielinski et Mannila, 1996] • Base de données : gérer les applications de stockage des données • BDI : gérer les applications de découverte de connaissances • Le temps : attribut complexe à gérer • Apport des BDIs : leur formalisme