1 / 65

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte. Marie Chavent, Antonio Ciampi , Olivier Elemento, Aicha El Golli, Yves Lechevallier Karim Terbeche Yves.Lechevallier@inria.fr.

ollie
Download Presentation

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Construction de super-classes à partir de la carte de KohonenEtude de la robustesse de la carte. Marie Chavent, Antonio Ciampi, Olivier Elemento, Aicha El Golli, Yves Lechevallier Karim Terbeche Yves.Lechevallier@inria.fr

  2. Notre approche intègre Kohonen Self Organizing Map avec d’autres méthodes de classification. Dans la première étape, SOM réduit de manière importante les données et rend, ainsi, les méthodes de classification hiérarchiques accessibles. Dans la seconde étape, nous proposons une modélisation des classes obtenues afin de pouvoir utiliser une méthode de classification optimisant les paramètres de cette modélisation. Cette approche est illustrée par un exemple de données de nutrition d’EPIC. Introduction

  3. Notre approche Au départ on réalise une réduction des données par les cartes topologiques de Kohonen. Après les mesures individuelles sont remplacées par des mesures agrégées qui sont calculées sur les neurones représentant les micro-classes. Ces micro-classes sont maintenant traitées comme des nouvelles « boites » qui sont représentées par une distribution gaussienne multi-dimensionnelle ou par un intervalle de « variabilité ». Après les micro-classes sont regroupés pour produire un nombre réduit de super-classes.

  4. Cette approche comporte 4 étapes : étape 1 : Réduction des données par les cartes de Kohonen Le tableau de données original est réduit en un certain nombre de micro-régimes où chaque individus est assigné à un seul de ces micro-régimes. étape 2 : Relation entre centreset micro-régimes Calcul de la moyenne et de la matrice de variance et covariance de chaque micro-régime. étape 3 :Classification sur les micro-régimes La méthode de classification divisive est utilisée pour obtenir une première définition des régimes. étape 4 : Description des régimes Chaque régime va être décrit par un « Zoom Star » en utilisant les 8 variables les plus discriminantes Méthodologie

  5. Les données • Une étude multi-centres longitudinale de cohorte dont le but est une meilleure compréhension de l’effet de la nutrition, par l’analyse des variables métaboliques et d’autres facteurs relié au style de vie, sur le risque de cancer. Les données portant sur le régime alimentaire sont maintenant disponible sur plus de 500.000 sujets. • Nous remercions le Dr. F. Clavel pour nous avoir permis d’analyser les données de son étude, et le Dr. E. Riboli pour nous avoir guidé à comprendre la complexité et les enjeux du projet EPIC . • Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle. L’objectif est de classer les profils annuels de ces stations.

  6. Les cartes de Kohonen sont utilisés pour visualiser des structures complexes issues de grands tableaux de données par projection sur une grille (comme à la TV) sachant que les propriétés de la structure de données sous-jacente doivent être vues sur l’écran. étape 1 : Réduction des données par les cartes de Kohonen

  7. Étapes de l’algorithme Initialisation Initialisation par l’analyse en composantes principales Étape d’allocation Sélection aléatoire de l’individu s et détermination du neurone « gagnant » c, sachant que : c = arg mini d(s,mi) )ooù : d est la distance entre set le prototypemi Étape de représentation Mise à jour des pondérations de tous les neurones i appartenant au voisinage de c par : où: mi(t)est la description dui, atest utilisé pour assurer la convergence, h(c,i,t) est la fonction de voisinage entre ceti. Règle d’arrêt Revenir à l’étape d’allocation si cette règle n’est pas vérifiée.

  8. Algorithme de gradient stochastique On choisit un f0 dans l'espace F, ensemble des solutions. à l'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation zt on procède à la mise à jour par la formule suivante : la suite de termes at positifs doit vérifier :

  9. Fonction de voisinage Courbe de cette fonction de voisinage a= d2(i,c)

  10. Initialisation Notre choix est d’utiliser les résultats d’une analyse en composante principale appliquée à la matrice des données à la fois dans le choix de l’architecture de la carte et dans l’initialisation. Il est en effet utile de choisir les dimensions de la grille, a et b (avec R = ab) de telle sorte que : où 1 et 2 sont les deux premières valeurs propres de l’analyse en composante principale. Les poids des connections initiaux et les positions des prototypes sont déterminés à partir des deux premiers vecteurs propres

  11. Nous avons pris un sous-ensemble de la population de l’EPIC constitué de 4852 femmes françaises distribuées dans 7 centres. Les variables sont 16 variables continues: Potatoes and other tubers Fish and Shellfish Vegetables Eggs and eggs products Legumes Fat Fruits Sugar and confectionery Dairy products Cakes Cereals and cereals products Alcoholic beverages Meat and meat products Condiments and Sauces Soups and bouillon Miscellaneous Tableau de données

  12. Cercle de correlation entre les variables

  13. Initialisation par l’ACP A chaque sommet de la grille on associe un neurone et son vecteur de pondération qui est sa position dans cet espace de dimension

  14. Kohonen Map Chaque boite représente un neurone et l’ensemble des individus associés par l’étape d’allocation. A chaque boite vous avez l’effectif et son profil calcul sur les 16 variables

  15. 2 micro-régimes visualisés par Zoom Stars

  16. étape 2 :Relation entre centres et boites

  17. Pour chaque « boite » nous résumons les vecteurs de mesure des individus de cette boite par de nouvelles mesures agrégées associées à cette boite Deux modèles de représentation: Par une distribution gaussienne Par un intervalle de variation Résumés de la matrice originale

  18. Dissimilarité entre micro-classes Un avantage ultérieur de la réduction de Kohonen est que les vecteurs des moyennes sur les micro-classes sont asymptotiquement distribués selon la distribution normale. C’est une propriété importante, car elle permet de définir une mesure de dissimilarité entre micro-classes particulièrement bien appropriée. L’objectif est la découverte de classes ou régimes alimentaires constitués de micro-classes ou micro-régimes.

  19. Distance entre micro-classes La distance est la statistique du rapport de vraisemblance entre l’hypothèse que m et msont distribués selon deux lois différenteset l’hypothèse qu’ils sont distribués selon la même distribution. On a alors :

  20. Algorithme de la classification ascendante hiérarchique CAH (a) initialisation On se donne au départ la partition constituée de N classes On se donne un indice d’agrégation qui vérifie (b) Étape agrégative Construire une nouvelle partitioncontenant K classes à partir de la partition contenant K+1 classes en réunissant les deux classes deles plus proches au sens de la mesure d’agrégation D. (c)Recommencer l’étape (b) jusqu’à obtenir une seule classe, c’est-à-dire la partition grossière.

  21. La formule de récurrence de Lance et Williams Il est nécessaire de recalculer l’indice d’agrégation entre la nouvelle classe ainsi formée et les autres classes de la partition. Lance et Williams en 1967 ont proposé, lors du regroupement des deux classes , la formule de récurrence suivante : lien minimum lien maximum l’augmentation de l’inertie ou indice de WARD

  22. étape 3 :Classification sur les micro-classes Cette méthode (Chavent 1997, 1998), présentée ici dans le cas particulier des variables de type intervalle, divise à chaque étape une classe en fonction d'une question binaire et du critère d'inertie A chaque étape, la méthode définit la question binaire qui induit la bipartition d’inertie intra-classe minimum.

  23. DIV : méthode de classification divisive • Les K partitions de notre ensemble d’individus • Hiérarchie indicée • Chaque nœud représente une classe • Chaque classe peut être décrite par une règle

  24. Questions binaires variable continue Variable qualitative [X > 3.5] ? • Dans le cas d’une variable continue on évalue toutes coupures possibles c’est-à-dire au maximum n-1 • Pour une variable qualitative ordonnéeY, on évalue ainsi au maximum m-1 bipartitions • Dans le cas d'une variable qualitative non ordonnée, on se heurte vite à un problème de complexité, le nombre de dichotomies du domaine d'observation étant alors égal à 2m-1-1.

  25. Initialisation l’ensemble E forme la partition grossière Étape k Diviser l’une des k classes de la partition en deux classes En sélectionnant une des questions binaires qui optimisent un critère d’évaluation défini sur la partition, En utilisant cette question binaire pour générer deux sous-classes, Remplace la classe précédente par deux nouvelles feuilles associées à ces sous-classes (arbre binaire) Revenir à l’étape k tant que k est plus petit que le nombre de classes donné a priori. Algorithme récursif

  26. Critère d’évaluation Soit P=(P1,…,PK) une partition en K classes Critère d’évaluation W(P) doit être additif Exemple : Inertie intra-classe La réduction du critère d’évaluation revient à maximiser le gain D(Q) associé à la question binaire Q de découper la classe C et deux classes C1 et C2 B étant l’ensemble des questions binaires admissibles

  27. Étape 1: Tous les objets dans la même classe C Étape 2: Diviser successivement chaque classe C en deux classes (C1,C2) en fonction du critère de l’inertie intra-classes étape 2.1: pour chaque variable X , trouver la coupure s qui maximise D(X,s/C)=|w(C) - w(C1)-w(C2)| étape 2.2: choisir la variable X* et la coupure s D(X*,s*/C)=max D(X,s/C) étape 3: diviser la classe C en (C1,C2) Algorithme divisif

  28. C1 C3 C4 C2 C9 C7 C6 C8 C5 Arbre de décision/ Hiérarchie indicée Pas d’ordre de découpage Ordre de construction D C8 C9 C5 C6 C7

  29. Les K partitions de notre ensemble d’individus Hiérarchie indicée Chaque nœud représente une classe Chaque classe peut être décrite par une règle Les résultats

  30. Arbre de classification La règle associée au régime 3 est : Proportion of Soups and Bouillon < 17.28 AND Proportion of fish and Shellfish < 6.87

  31. étape 4 : 3 régimes par Zoom Stars Règle du régime 3 est : Soups and Bouillon < 17.28 AND Fish and Shellfish < 6.87

  32. 3 régimes par Zoom Stars

  33. Relation entreles centreset les régimes

  34. Classification de stations de météorologies chinoises Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle. L’objectif est de classer les profils annuels de ces stations. Chaque station est décrite par 12 variables continues On propose de comparer deux formes d’initialisation de l’algorithme de Kohonen.

  35. Comparaison entre deux types d’initialisation

  36. Initialisation par l’ACP

  37. Hasard

  38. Initialisation par l’ACP

  39. Hasard

  40. Initialisation par l’ACP

  41. Hasard

  42. Grille obtenue par une initialisation par l’ACP

  43. Grille obtenue par une initialisation au hasard

  44. DIV sur les 110 neurones

  45. Critère de l’inertie intra-classe

  46. Problème de reconnaissance des formes Cet exemple est issus d’un problème de reconnaissance des formes du livre de L.Breiman, J.H. Friedman, R.A. Oslhen and C. J. Stone "Classification and Regression Trees"; Belmont Eds, 1984. Ces données sont des données simulées

  47. Les trois formes de base Voici les trois formes de base h1, h2eth3. h2(i) h1(i) h3(i)

  48. Ensemble d’apprentissage 3 classes de formes: wave_1, wave_2, wave_3 Pour chaque forme : les 21 donnéesxi i=1 à 21 sont calculées à partir du modèle et d’un bruit Formes de la classewave_1 : xi=u. h1(i)+ (1-u).h3(i)+ei for i=1,...,21. Formes de la classewave_2 : xi=u. h1(i)+ (1-u).h2(i)+ei for i=1,...,21. Formes de la classewave_3 : xi=u. h3(i)+ (1-u).h2(i)+ei for i=1,...,21. • usuit une loi uniforme dans [0,1] • e1,...,e21sont des variables aléatoires indépendantes qui suivent une loi gaussienne de moyenne nulle et de variance unitaire.

  49. Un modèle de forme avec h1 et h3 Le vecteur est obtenu par un échantillonnage sur 21 points 6 5 u=0.1 WAVE 4 3 2 x8 1 x3 0 0 5 10 15 20 25 Variables v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 ....

  50. Analyse en composante principale wave_1 wave_2 wave_3

More Related