290 likes | 414 Views
Journée des Treillis Lorrains Nancy, France – Décembre 2008. Des arbres de décision et des treillis dichotomiques. Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France. LIENS. Des Arbres Et Des Treillis.
E N D
Journée des Treillis Lorrains Nancy, France – Décembre 2008 Des arbres de décision et des treillis dichotomiques Nathalie Girard Encadrantes : Karell Bertet – Muriel Visani Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France
LIENS Des Arbres Et Des Treillis • Des Données à la Classification • Différents types de données • Différents classifieurs • Le Treillis Dichotomique • Treillis Dichotomique : Définition • Arbre de Décision Treillis Dichotomique • Conclusion & Perspectives 2
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Différents Types de Données 3
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Transformation et Codage • A partir d’une base de données construction d’une table objets/attributs • Méthode utilisée => mise en forme de la table : • Discrétisation des variables continues • Ex : intervalles de valeurs • Codage disjonctif (complet ou non) • Variables discrètes = Variables à deux modalités (V/F) Changements de type 4
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Discrétisation des données Discrétisation des données continues + codage binaire 5
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Données et Tables • Méthode utilisée => Utilisation différente des données : • Utilisation d’une partie des données pour l’apprentissage, de l’autre pour la validation • Sélection d’attributs pertinents • Suppression des objets/données « aberrantes » • Transformation des attributs • Codage des données • … 6
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Différents Classifieurs • Objectif, pour les nouveaux objets : • Inférer la variable à prédire • Une classe • Une valeur pour un attributs … • Classifieurs statistiques • SVM, … • Classifieurs probabilistes • Bayésiens, … • Classifieurs symboliques • Arbre de décision • Treillis de Galois • … 7
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Arbres de Décision Définition • Défini à partir d’un ensemble de données • Classifier avec un Arbre de Décision : • Nœud : test sur un attribut • Feuille : classe • Construction • De la racine (= O) aux feuilles • Requiert deux critères • Critère de Division (supervisé ou non) • Critère d’arrêt (supervisé ou non) • Eventuellement, élagage 8
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Arbres de Décision Exemple 9
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Treillis de GaloisDéfinition • Contexte C = (O,I,(f,g)) Prop : = f g est un opérateur de fermeture sur I • Le Treillis de Galois de C =(K, ≤) avec: (A,B) K f(A)=B et g(B)=A pour A O, B I, (A,B) ≤ (A2,B2) A A2 B B2 O = { objets labélisés} I = {attributs} (f,g) = correspondance de Galois K = {concepts} ≤ = relation d’ordre entre concepts 10
Treillis de Galois Contexte / Table • Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Treillis de GaloisExemple Correspondance de Galois • f(1) = {a1,b1,c2} • g(b1) = {1, 2, 9} Fermeture : • (a1) = {a1, c2} = f(g(a1)) 11
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Méthodes de Classification basées sur les Treillis de Galois Méthodes orientées Sélection Méthodes orientées Navigation 12
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Méthodes orientées Navigation - NAVIGALA • NAVIGALA (Guillas, Bertet, Ogier, 2007) • Préparation des données : • Extraction deSignatures des images de symbole. • Discrétisation supervisée des Signatures (contexte multi-valué) • Séparation ensemble d’apprentissage/ensemble de validation • Apprentissage supervisé de l’ensemble de données : • Génération du Treillis de Galois à partir de l’ensemble d’apprentissage (aucun paramètre nécessaire) • Labellisation de chaque concept terminal par sa classe majoritaire • Etape de Reconnaissance – Ensemble de validation: • Classification des symboles de l’ensemble de validation par navigation dans le treillis par validation d’intervalles jusqu’à atteindre un concept terminal • Classification de nouveaux symboles bruités à partir de leur signature par navigation dans le treillis (comme dans un arbre de décision) 13
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives “Navigala”: classification de symboles bruités Objet 11 Classe 2 14
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives “Navigala”: classification de symboles bruités Version bruitée de l’objet 11 Plusieurs chemins dans le Treillis de Galois Robustesse pour les images de données bruitées 15
LIENS Des Arbres Et Des Treillis • Des Données à la Classification • Différents types de données • Différents classifieurs • Le Treillis Dichotomique • Treillis Dichotomique : Définition • Arbre de Décision Treillis Dichotomique • Conclusion & Perspectives 16
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Treillis Dichotomique Définition • Définition 1: Un treillis est dichotomique lorsque pour tout concept (A1,B1) il existe un concept V-complémentaire (A2,B2) (A1,B1) (K, ≤), (A2,B2) (K, ≤) tel que (A1,B1) (A2,B2) = (,I) = concept maximal 17
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Treillis Dichotomique Exemple 18
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Complémentarité • Complémentarité sur les Attributs (Kuznetsov04) : x I, ! x I tel que y O f(y) = x ou f(y) = x • V-Complémentarité sur les Concepts : X I, X un ensemble d’attributstel que g(X) g(X ) = Contexte Dichotomique Treillis Dichotomique 19
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Complémentarité • Complémentarité entre attributs : Non • Pour a1, a2, a3 • Complémentarité entre concepts : Oui • g(a1) g({a2,a3}) = 20
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Arbres de Décision Treillis Dichotomique • Proposition 1: Chaque arbre de décision est inclus dans le treillis dichotomique, lorsque les deux structures sont construites à partir de la même table. 21 Points clés de la preuve :
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Arbres de Décision Treillis Dichotomique N1 N1 N3 N2 N3 N5 N4 N6 N7 N2 N7 N6 N4 N5 22
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Treillis Dichotomique = union des arbres de décision • Points clés de la preuve : • Par construction d’un sous-arbre inclus dans le treillis dichotomique • Utilisation de la propriété de V-complémentarité • Proposition 2: Un treillis dichotomique est l’union de tout les arbres de décision, lorsque les deux structures sont construites à partir de la même table. 23
LIENS Des Arbres Et Des Treillis • Des Données à la Classification • Différents types de données • Différents classifieurs • Le Treillis Dichotomique • Treillis Dichotomique : Définition • Arbre de Décision Treillis Dichotomique • Conclusion & Perspectives 24
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Conclusion • Arbres de Décision et Treillis de Galois sont utilisés comme des classifieurs. • Utilisation d’un treillis de Galois Robustesse avec les symboles bruités. • Résultats : liens structurels forts arbres de décision/treillis dichotomiques Prop.1: Ti, Ti L Prop.2: L = Ti 25
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Perspectives • Etude expérimentales dans un contexte de classification : • Considérer et comparer différents sous arbres pris dans le treillis selon différents critères : • Le nombre de sous concept (J. Outrata) • Le nombre d’objet d’un concept • La hauteur/largeur de l’arbre • … • Conception d'une nouvelle méthode de classification hybride alliant treillis dichotomiques et arbres de décision. 26
Des Données à la Classification • Le Treillis Dichotomique • Conclusion & Perspectives Perspectives • Etude structurelle des treillis dichotomique : • Positionnement par rapport à des classes de treillis connues • => Extension du cadre d’application des liens de fusion/inclusion à d’autres types de données • Possibilité de génération incrémentales (lié aux duplications?/discrétisation au fur et à mesure) 27
Bibliographie (Carpineto, Romano93) C. Capineto and G. Romano. Galois: An order-theoretic approach to conceptual clustering. In Proceedings of ICML’93, p33-40, Amherst, July 1993 (Liquière, Mephu-Nguifo90) M. Liquière and E. Mephu-Nguifo. LEGAL: Learning with Galois Lattice. In Actes des Journées Françaises sur l’Apprentissage (JFA), p93-113, Lannion, France, avril 1990. (Oosthuizen88) G. Oosthuizen. The use of a lattice in Knowmedge Processing. PhD thesis, University of Strathclyde, Glasgow, 1988. (Sahami95) M. Sahami. Learning classification rules using lattices . In Nada Lavrac and Stephan Wrobel, editors, Processing of ECML’95, p343-346, Heraclion, Crete, Greece, April 1995. (Kuznetsov04) S. Kuznetsov. Machine learning and formal concept analysis. Innovations in applied artificial intelligence : Ottawa, 3029:287–312, 2004. (Njiwoua, Mephu-Nguifo99) P. Njiwoua and E. Mephu-Nguifo. Améliorer l’apprentissage à partir d’instances grâce à l’induction de concepts : le système CIBLe. Revue d’intelligence Artificielle (RIA), 13(2): 413-440, 1999, Hermès Science. (Guillas, Bertet, Visani, Ogier, 2008) S. Guillas, K. Bertet, M. Visani, J.M. Ogier. A propos des liens entre arbre de décision et treillis dichotomique. CIFED’2008, Rouen, France, Novembre 28-30 2008. 28