340 likes | 537 Views
Des treillis, des règles et des bases Karell Bertet Laboratoire L3I Université de La Rochelle Treillis Nancéens 1er Décembre 2008. Plan. Plusieurs définitions: Définition algébrique Treillis des fermés Treillis de Galois Règles et bases Définitions Aspects algorithmiques Conclusion.
E N D
Des treillis, des règles et des bases Karell Bertet Laboratoire L3I Université de La Rochelle Treillis Nancéens 1er Décembre 2008 N° 1 Treillis Nancéens- 1er Décembre 2008 Karell Bertet
N° 2 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Plan • Plusieurs définitions: • Définition algébrique • Treillis des fermés • Treillis de Galois • Règles et bases • Définitions • Aspects algorithmiques • Conclusion
N° 3 Treillis Nancéens- 1er Décembre 2008 Karell Bertet minorants de c minorants de e f Borne inférieure c e a Borne supérieure majorants de c majorants de e Treillis algébrique [Bir 40] • Un treillis (X,) est un ensemble X muni : • D'une relation d'ordre : relation binaire transitive, réflexive et antisymétrique • D'une borne supérieure et d'une borne inférieure pour chaque paire d'éléments de l'ensemble :
N° 4 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Borne inférieure b l Borne supérieure Définition algébrique e • Diagramme de Hasse: • Réduction transitive de (suppression des arcs de transitivité) • Réduction réflexivede (suppression des boucles) f d b a g c i h n o j m l k
N° 5 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Table d’un treillis • A tout treillis on associe sa table: • Les colonnes sont les sup-irréductibles du treillis (ensemble J) Caractérisation: existence d’un unique prédécesseur j- dans le diagramme de Hasse pour tout j J • Les lignes sont les inf-irréductibles du treillis (ensemble M) Caractérisation: existence d’un unique successeur m+ dans le diagramme de Hasse pour tout m M • Pour chaque paire (j,m) JxM, on définit: • T[j,m] = x si j m • T[j,m] = si j m+ • T[j,m] = si j- m • T[j,m] = si et j m+ et j- m • T[j,m] = o sinon Relations flèches
N° 6 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Table d’un treillis • Propriétés: • La table est unique et réduite (propriétés de réduction sur les lignes et les colonnes) • Tout treillis est isomorphe au treillis de Galois de sa table réduite • Il existe une bijection entre treillis et table réduite • De nombreuses classes de treillis se caractérisent par leur table réduite (relations flèches) • Possibles retombées algorithmiques intéressantes
N° 7 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Ø f d b af df c bd be adf acf bdf bce bde abcdef Treillis des fermés [CasMon 03] • Le treillis des fermés sur un ensemble S est défini par: • Une famille F de fermés sur S Fermé: “parties de S stables par intersection et contenant S” • Munie de la relation d'inclusion entre les fermés • Exemple:F={,f, c, d, b, af, db,..., abcdef} parties de S: F famille de fermés sur S={a,b,c,d,e,f} stables par intersection : acf F et adf F af F et contenant S: S F • (a)=af • (ab)=abcde • ()= • .......
N° 8 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Treillis des fermés [CasMon 03] Propriétés: • (F,)posséde la propriété de treillis • A tout treillis (X, ) on peut associer un treillis des fermés sur les sup-irréductibles qui lui est isomorphe Système de fermeture: • Tout treillis des fermés forme un système de fermeture • Il est possible de lui associer un opérateur de fermeture défini sur P(S) par: (X) = le plus petit fermé de la famille F contenant X
N° 9 Treillis Nancéens- 1er Décembre 2008 Karell Bertet 1 2 3 4 5 6 7 8 9 10 Ø a b c d e f 1 2 3 4 56 7 8 9 10 1 2 3 4 5 6 7 8 3 4 5 6 7 8 10 6 7 8 9 10 f d b 3 4 5 6 7 8 1 2 9 6 7 8 10 9 10 1 2 3 4 5 a f d f c b d b e 9 1 2 10 3 4 5 6 7 8 b c e b d e a c f a d f b d f Ø a b c d e f Treillis de Galois / Treillis des concepts [Will99] • Le Treillis de Galoisou Treillis des conceptsse définit à partir d'une table de données binaires
N° 10 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Treillis de Galois / Treillis des concepts [Will99] • Les données binaires sont décrites par: • Un ensemble O d'objets • Un ensemble I d'attributs • Une connexion de Galois (f,g) entre objets et attributs: • f associe aux objets leurs attributs • g associe aux attributs leurs objets • Propriété: • f o g est un opérateur de fermeture sur les attributs, • g o f est un opérateur de fermeture sur les objets
N° 11 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Treillis de Galois / Treillis des concepts [Will99] • Le treillis de Galois des données (O,I,(f,g)) se définit par: • Un ensemble de concepts: un concept est une paire (A,B) avec: • A O, B A = f(B) et B = g(A) • Muni d'une relation d'extension/subsomption entre les concepts: • (A,B) (A’,B’) A A‘ B B’ • Propriété: la relation sur l'ensemble des concepts est une relation d'ordre possédant la propriété de treillis
N° 12 Treillis Nancéens- 1er Décembre 2008 Karell Bertet 1 2 3 4 5 6 7 8 9 10 Ø 1 2 3 4 5 6 7 8 3 4 5 6 7 8 10 6 7 8 9 10 f d b 3 4 5 6 7 8 1 2 9 6 7 8 10 9 10 1 2 3 4 5 a f d f c b d b e 9 1 2 10 3 4 5 6 7 8 b c e b d e a c f a d f b d f Ø a b c d e f Treillis de Galois et treillis des fermés Treillis de Galois
N° 13 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Treillis de Galois et treillis des fermés Treillis des fermés sur les objets 0 Treillis des fermés sur les attributs I 1 2 3 4 5 6 7 8 9 10 Ø 12345678 678910 3 4 5 6 7 8 10 f d b 67810 345678 12345 af df c bd 129 be 9 10 adf acf bdf 345 12 678 bce bde 9 10 abcdef Ø
N° 14 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Bijection treillis - table 1 n 1 1 bijection Données binaires (bimodales) Table réduite (contexte réduit) Bijection fondamentale Treillis treillis des fermés treillis de Galois
N° 15 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Un peu d’histoire [Mon 08] • Algèbre de Boole et treillis booléens: Définition d’un treillis booléen par application de l’algèbre booléennes aux ordre • 1847: George Boole, Algèbre de la logique • 1847-1913: De Morgan, Boole, Peirce, …. Scheffer • 1880: Peirce, On the Algebra of Logic • Treillis algébriques: • 1897-1900: Richard Dedekind, Introduction du « dualgruppe » • 1928-1936: Merge, Klein, Store, Birkhoff, Öre (« structure »),Von Neuman ….. • 1938: Sympsosium of lattice theory • 1938-1940: les deux premiers livres: Birkhoff (Lattice Theory, 1940) et Olivenko (Théorie générale des structures, 1938). • 1984-1970: Premières revues (Algebra universalis et Order) Terme lattice
N° 16 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Différentes définitions pour différents usages • Définition algébrique: • Un ordre et deux opérateurs binaires, approche historique • Utilisation: résultats structurels de maths discrètes (bijection table réduite / treillis, classes de treillis, …) • Treillis des fermés • Corrélations entre les éléments d’un ensemble S • Utilisation: manipulation de règles entre attributs (règles d’association, bases, dépendances fonctionnelles …) • Treillis de Galois • Regroupements maximaux d’éléments sur deux ensembles O et A. • Utilisation: analyse de données de type objet x attributs (analyse formelle des concepts, analyse relationnelle des concepts, …)
N° 17 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Plan • Plusieurs définitions: • Définition algébrique • Treillis des fermés • Treillis de Galois • Règles et bases • Définitions • Aspects algorithmiques • Conclusion
N° 18 Treillis Nancéens- 1er Décembre 2008 Karell Bertet a b c d e f 1 2 3 4 56 7 8 9 10 Règles entre attributs • Les corrélations entre les attributs peuvent s'exprimer par des règles: • Règle d'implication ou règle exacte: e b: « tous les objets possédant l'attribut e possèdent également l'attribut b » (les objets 9 et 10 possèdent e donc b) • Règle d'association ou règle approximative: d f: « une majorité des objets possédant l'attribut d possèdent également l'attribut f » (les objets 3,4,5,6,7,8,10 possèdent d, seul l'objet 10 ne possède pas f)
N° 19 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Règles d'association [Agrawal 94] • Motif (itemset): ensemble d'attibuts • Support du motif: proportion d'objets qui possèdent le motif par rapport à l'ensemble des objets • Motif fréquent: son support est supérieur à un seuil de fréquence • Règle d'association: deux motifs A B • Confiance d'une règle: support (A B)/support (A) • Règle valide: confiance supérieure à un seuil de confiance • Règle exacte: confiance de 1
N° 20 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Règles d'implication [BarMon 70] • Un système implicatif (IS) est une relation binaire entre les parties d'un ensemble S: P(S) P(S) • Un système implicatif unaire (UIS) est une relation binaire entre les parties de S et S lui-même: P(S) S • Une règle implication est un couple d'un système implicatif (unaire) (B,x) noté B x Prémisse Conclusion
N° 21 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Règles d’implication et treillis des fermés • Treillis des fermés d’un SI: • On dit que X S vérifie une règle B x si X B x X • Un fermé (X) vérifie toutes les règles d'implication. • (F, ) est un treillis des fermés avec F = {X S tq X vérifie toutes les règles du SI } • A tout treillis (des fermés) on associe plusieurs SI • SI direct: une seule passe sur les règles suffit pour calculer un fermé • SI non direct: plusieurs passes sont nécessaires
N° 22 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Règles d'implication et treillis des fermés Treillis des fermés sur les attributs I • SI direct: • cd = {af, eb, efa, cfa, • cdb, afc, abc, bfd, • efd, cde, bce, abe, cdf } • (a) = plus petit fermé contenant a • = application de la règle af • = {a,f} Ø f d b a f d f c b d b e a d f a c f b d f b c e b d e a b c d e f
N° 23 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Bases de règles d'implication Ensemble des UIS purs, équivalents (i.e. représentant les mêmes données et le même treillis) ordonnés par inclusion des règles: Un unique UIS maximal, complet et exponentiel: f UIS directs Un unique UIS minimal parmis les UIS directs [BerMon05]: la base canonique directecd UIS non directs Plusieurs UIS minimaux Mais un unique UIS minimum [Duq85]: la base canoniquecan ...
N° 24 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Liens structurels 1 n 1 1 bijection Données binaires (bimodales) Table(réduite) Base canonique (directe) Base informative (générique) Treillis ( treillis des fermés ou treillis de Galois) Règles d'implication Règles d'association
N° 25 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Bases de règles d’implication • Base: ensemble minimal de règles à partir desquelles on peut retrouver toutes les règles possibles par un mécanisme d'inférence (axiomes d'Armstrong, ...) • Bases de règles d'implication: La base canonique[Duq85](ou Stem base, ou base de Duquenne-Guigues) can = { P (P) \ P with P S pseudo fermé } La base canonique directe
N° 26 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Bases de règles d’implication La base canonique directe que l'on retrouve [BerMon05]: • sous différentes terminologies: dépendances fonctionnelles, base minimale à gauche [DemetHua91], base faible d'implications [TaouilBastide02], canonical iteration free basis [Wild94], base constrctive optimale [BerNeb04], ... • sous différentes formes: clauses de Horn, générateurs minimaux ... Génération: • à partir d’un SI équivalent par génération d’un SI direct intermédiaire qu’il s’agit ensuite de minimiser [Wild95][BerNeb03] • à partir de la table, pendant la génération du treillis (extension de l’algorithme de Bordat) [Ber06]
N° 27 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Lien avec la logique • Fonction de Horn: formule propositionnelle sous forme normale disjonctive (FND) ou conjonctive (FNC) telle que: • les disjonctions de la FND admettent une seule variable complémentée • ou les conjonctions de la FNC admettent une seule variable non complémentée On parle d’implicants premiers • Bijection: Implicants premiers Implications de la BCD ab'd a'+b+d' ad b • Distinction entre: • implicants premiers à deux variables (2-SAT : pb polynomial) • à plus de 2 variables (SAT : pb NP-complet)
N° 28 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Bases de règles d’association • Bases de règles d'association: plusieurs, parmis lesquelles: La base générique informative[Gas06:IGB] définie à partir des générateurs minimaux : gi = { G (G) \ G règle valide, avec G générateur minimal } Génération d’un générateur minimal: • Génération des fermés, puis traitement (exponentiel) de chaque fermé [Floch03:Jen] (0 ou plusieurs générateurs minimaux par fermé) • Génération de la BCD: Les générateurs minimaux sont les prémisses de la base faible d'implications [TaouilBastide02] donc de la base canonique directe
N° 29 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Algorithmes de génération Données binaires Table réduite • [Norris78][Bordat86] • [Gan84:NextCloure] • [Godin 91][Nourine99] ... • [Duq85: BC] • [Bertet.07:BCD] Base canonique (directe) Base informative (générique) Treillis de Galois ( treillis des fermés ou treillis de Galois) • [Godin94] • [Pas00:Close] • [Stum02:Titanic] • [Zaki02:Charm] • [Ham05:Prince] • [Floch03:Jen] • [Wild85] • [BertNeb03] • [Agra94:Apriori] Règles d'implication Règles d'association
N° 30 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Algorithmes de génération • Risque algorithmique d'explosion combinatoire: • Nombre exponentiel de règles / concepts / fermés dans le pire des cas, .... mais polynimial en pratique • Génération polynomiale d'un concept / fermé. • Génération exponentielle d'une règle (problème ouvert) • Utilisation en fouille de données et classification: • du treillis de Galois (ou treillis des fermés) • des règles d'association (ou bases génériques) Intérêt algorithmiques croissant suite à la montée en puissance des ordinateurs
N° 31 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Algorithmes de génération Algorithmes utilisés en fouille de données et classification Données binaires Table réduite • [Norris78][Bordat86] • [Gan84:NextCloure] • [Godin 91][Nourine99] ... • [Duq85: BC] • [Bertet.07:BCD] Base canonique (directe) Base informative (générique) Treillis de Galois ( treillis des fermés ou treillis de Galois) • [Godin94] • [Pas00:Close] • [Stum02:Titanic] • [Zaki02:Charm] • [Ham05:Prince] • [Floch03:Jen] • [Wild85] • [BertNeb03] • [Agra94:Apriori] Règles d'implication Règles d'association
N° 32 Treillis Nancéens- 1er Décembre 2008 Karell Bertet Conclusion • Différentes terminologies pour différents usages: • Treillis algébriques: résultats structurels, classes de treillis (treillis démantelables, treillis dichotomiques, treillis issus de duplications, …) • Treillis des fermés: manipulation de règles / dépendances fonctionnelles / bases entre attributs • Treillis de Galois / des concepts: analyse de données de type objet x attributs / classification supervisée ou non « la mathématique est l'art de donner le même nom à des chosesdifférentes » (Poincaré) Importance du lien entre les objets issus de la théorie des treillis: retombées algorithmiques