350 likes | 457 Views
Introduction aux classes empiétantes. François Brucker. Brest ( Breizh ). francois.brucker@enst-bretagne.fr. ‘‘Définition générale de la classification’’ :. Le seul moyen de de faire une méthode instructive et naturelle, c’est de mettre ensemble les choses qui se ressemblent
E N D
Introduction aux classes empiétantes François Brucker Brest (Breizh) francois.brucker@enst-bretagne.fr
‘‘Définition générale de la classification’’ : • Le seul moyen de de faire une méthode instructive et naturelle, • c’est de mettre ensemble les choses qui se ressemblent • et de séparer celles qui diffèrent les unes des autres. • Georges Leclerc de Buffon, naturaliste et écrivain, Histoire naturelle,1749. 2 grands types de critères : • globaux (au niveau des classes) • locaux (au niveau des objets)
Réflexive (x R x pour tout x de X) Relation R Symétrique (x R y y R x) Une définition d’une classe Ensemble X d’objets On associe à R un graphe GR=(X,E) C est une classe de X C est une clique maximale de GR
(X,R) GR {C1, C2, …, Cp} Ensemble de cliques maximales Une classification de (X,R)
Classification particulière Critère global : Critère local : Partition Relation d’équivalence • réflexive • symétrique • transitive x R y et y R z x R z A B {A,B,}
non empiétance transitivité ami Classe B Classe A moi ami
z x t y On regarde par rapport à 2 éléments Relation 2-transitive (Jardine et Sibson, 1971)
Se généralise à 3, 4, ..., n éléments. z x y Relation n-transitive (Jardine et Sibson, 1971)
Dissimilarité : d : X R Une définition d’une classe Ensemble X d’objets d(x,y)=d(y,x) d(x,y) 0 d(x,x)=0 telle que Propre si d(x,y)=0 x=y On associe à chaque d(x,y)=a un graphe Ga=(X,Ea) C est une classe de X C est une clique maximale d’un Ga
Classification particulière Ultramétrique : U u(x,y) £ max{u(x,z),u(z,y)} Arbre hiérarchique A B {A,B,}
z y v t u x w Réticulogramme
z y v t u x w Distance additive d’arbre Ce n’est pas à proprement parler un système de classes
Autre problème où l’empiétance est nécessaire : la sériation Le problème est ici de classer des objets par ordre chronologique, les objets étant décrit par une dissimilarité. Une classification est alors la donnée d’un ordre compatible avec la dissimilarité
x y z t Lien entre sériation et classes À la différence du modèle arboré, le problème de sériation est lié à un modèle de classe particulier : les hypergraphes d’intervalles Les classes d’une dissimilarité d sont un hypergraphe d’intervalle Si et seulement si il existe un ordre tel que toute classe de d soit un intervalle de cet ordre.
Lien entre dissimilarités et classes Il existe des bijections entre dissimilarités et classes Les modèles de classe associés aux modèles de distance correspondent à des visions classificatoires différentes • ultramétriques Ûhiérarchies (Jardine, Jardine et Sibson, 1967, Johnson, 1967, • Benzecri, 1973) • dissimilarités fortement de Robinson Ûpseudo-hiérarchies indicées (Durand, 1989) • quasi-ultramétriques Û quasi-hiérarchies indicées (Diatta et Fichet, 1994) Dans ce cas, classifier c’est : transformer une dissimilarité quelconque en une dissimilarité d’un type particulier.
Les k-ultramétriques (Jardine et Sibson, 1971) Définition : d est une dissimilarité k-ultramétrique sur X ssi : Pour tout S Í X, |S|=k, a,b Î X : d(a,b) £ max{d(x,y) | x Î S È {a,b}, y Î S} ie. Sur k+2 points, les deux plus grandes dissimilarités sont égales Intérêt : rendre compte des relations de k-transitivités
x y z t Les pyramides (Diday, 1984 ; Fichet, 1984) Définition : d est une dissimilarité fortement de Robinson sur X ssi : • Il existe un ordre qsur X • pour tout x qy qz d(x,z) ³ max{d(x,y),d(y,z)} • pour tout x q y q z • pour tout z q t : d(x,z)=d(y,z) Þ d(x,t)=d(y,t) • pour tout t q x : d(x,z)=d(x,y) Þ d(y,t)=d(z,t) Intérêt : problèmes de sériation
z t x y Les quasi-ultramétriques (Diatta et Fichet, 1994) Définition : d est une dissimilarité quasi-ultramétrique ssi : pour tout {x,y,z,t} Í X : max { d(x,z), d(z,y) } £ d(x,y) Þ d(z,t) £ max { d(t,x), d(t,y), d(x,y) } Intérêt (1/2): l’intersection de 3 classes est toujours l’intersection de 2 d’entres elles
z x t y Les quasi-ultramétriques : Intérêt (2/2) Les 2-boules sont exactement les cliques maximales (calculabilité) L’intersection de 2 cliques maximales est une clique maximale (stabilité)
Relation entre les différents modèles pyramides ultra- métrique quasi- ultramétrique 3-ultramétrique faible (etc.) distance d’arbre
Visualisation des classes Problème : visualisation des classes d’une dissimilarité. • Modèles « classiques » : • Quasi-ultramétrique ? 1 4 dendrogrammes • ultramétrique • pyramides 2 5 3 6
x y z t u v x y z t u v x y z t Classes sur un chemin x y z t
Exemple : distance de mutation Nombre de positions dans la protéine cytochrome-c où deux espèces ont deux acides aminés différents (Fitch et Margoliash, 1967)