Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

Construction de super-classes à partir de la carte de KohonenEtude de la robustesse de la carte. Marie Chavent, Antonio Ciampi, Olivier Elemento, Aicha El Golli, Yves Lechevallier Karim Terbeche Yves.Lechevallier@inria.fr

Notre approche intègre Kohonen Self Organizing Map avec d’autres méthodes de classification. Dans la première étape, SOM réduit de manière importante les données et rend, ainsi, les méthodes de classification hiérarchiques accessibles. Dans la seconde étape, nous proposons une modélisation des classes obtenues afin de pouvoir utiliser une méthode de classification optimisant les paramètres de cette modélisation. Cette approche est illustrée par un exemple de données de nutrition d’EPIC. Introduction

Notre approche Au départ on réalise une réduction des données par les cartes topologiques de Kohonen. Après les mesures individuelles sont remplacées par des mesures agrégées qui sont calculées sur les neurones représentant les micro-classes. Ces micro-classes sont maintenant traitées comme des nouvelles « boites » qui sont représentées par une distribution gaussienne multi-dimensionnelle ou par un intervalle de « variabilité ». Après les micro-classes sont regroupés pour produire un nombre réduit de super-classes.

Cette approche comporte 4 étapes : étape 1 : Réduction des données par les cartes de Kohonen Le tableau de données original est réduit en un certain nombre de micro-régimes où chaque individus est assigné à un seul de ces micro-régimes. étape 2 : Relation entre centreset micro-régimes Calcul de la moyenne et de la matrice de variance et covariance de chaque micro-régime. étape 3 :Classification sur les micro-régimes La méthode de classification divisive est utilisée pour obtenir une première définition des régimes. étape 4 : Description des régimes Chaque régime va être décrit par un « Zoom Star » en utilisant les 8 variables les plus discriminantes Méthodologie

Les données • Une étude multi-centres longitudinale de cohorte dont le but est une meilleure compréhension de l’effet de la nutrition, par l’analyse des variables métaboliques et d’autres facteurs relié au style de vie, sur le risque de cancer. Les données portant sur le régime alimentaire sont maintenant disponible sur plus de 500.000 sujets. • Nous remercions le Dr. F. Clavel pour nous avoir permis d’analyser les données de son étude, et le Dr. E. Riboli pour nous avoir guidé à comprendre la complexité et les enjeux du projet EPIC . • Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle. L’objectif est de classer les profils annuels de ces stations.

Les cartes de Kohonen sont utilisés pour visualiser des structures complexes issues de grands tableaux de données par projection sur une grille (comme à la TV) sachant que les propriétés de la structure de données sous-jacente doivent être vues sur l’écran. étape 1 : Réduction des données par les cartes de Kohonen

Étapes de l’algorithme Initialisation Initialisation par l’analyse en composantes principales Étape d’allocation Sélection aléatoire de l’individu s et détermination du neurone « gagnant » c, sachant que : c = arg mini d(s,mi) )ooù : d est la distance entre set le prototypemi Étape de représentation Mise à jour des pondérations de tous les neurones i appartenant au voisinage de c par : où: mi(t)est la description dui, atest utilisé pour assurer la convergence, h(c,i,t) est la fonction de voisinage entre ceti. Règle d’arrêt Revenir à l’étape d’allocation si cette règle n’est pas vérifiée.

Algorithme de gradient stochastique On choisit un f0 dans l'espace F, ensemble des solutions. à l'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation zt on procède à la mise à jour par la formule suivante : la suite de termes at positifs doit vérifier :

Fonction de voisinage Courbe de cette fonction de voisinage a= d2(i,c)

Initialisation Notre choix est d’utiliser les résultats d’une analyse en composante principale appliquée à la matrice des données à la fois dans le choix de l’architecture de la carte et dans l’initialisation. Il est en effet utile de choisir les dimensions de la grille, a et b (avec R = ab) de telle sorte que : où 1 et 2 sont les deux premières valeurs propres de l’analyse en composante principale. Les poids des connections initiaux et les positions des prototypes sont déterminés à partir des deux premiers vecteurs propres

Nous avons pris un sous-ensemble de la population de l’EPIC constitué de 4852 femmes françaises distribuées dans 7 centres. Les variables sont 16 variables continues: Potatoes and other tubers Fish and Shellfish Vegetables Eggs and eggs products Legumes Fat Fruits Sugar and confectionery Dairy products Cakes Cereals and cereals products Alcoholic beverages Meat and meat products Condiments and Sauces Soups and bouillon Miscellaneous Tableau de données

Cercle de correlation entre les variables

Initialisation par l’ACP A chaque sommet de la grille on associe un neurone et son vecteur de pondération qui est sa position dans cet espace de dimension

Kohonen Map Chaque boite représente un neurone et l’ensemble des individus associés par l’étape d’allocation. A chaque boite vous avez l’effectif et son profil calcul sur les 16 variables

2 micro-régimes visualisés par Zoom Stars

étape 2 :Relation entre centres et boites

Pour chaque « boite » nous résumons les vecteurs de mesure des individus de cette boite par de nouvelles mesures agrégées associées à cette boite Deux modèles de représentation: Par une distribution gaussienne Par un intervalle de variation Résumés de la matrice originale

Dissimilarité entre micro-classes Un avantage ultérieur de la réduction de Kohonen est que les vecteurs des moyennes sur les micro-classes sont asymptotiquement distribués selon la distribution normale. C’est une propriété importante, car elle permet de définir une mesure de dissimilarité entre micro-classes particulièrement bien appropriée. L’objectif est la découverte de classes ou régimes alimentaires constitués de micro-classes ou micro-régimes.

Distance entre micro-classes La distance est la statistique du rapport de vraisemblance entre l’hypothèse que m et msont distribués selon deux lois différenteset l’hypothèse qu’ils sont distribués selon la même distribution. On a alors :

Algorithme de la classification ascendante hiérarchique CAH (a) initialisation On se donne au départ la partition constituée de N classes On se donne un indice d’agrégation qui vérifie (b) Étape agrégative Construire une nouvelle partitioncontenant K classes à partir de la partition contenant K+1 classes en réunissant les deux classes deles plus proches au sens de la mesure d’agrégation D. (c)Recommencer l’étape (b) jusqu’à obtenir une seule classe, c’est-à-dire la partition grossière.

La formule de récurrence de Lance et Williams Il est nécessaire de recalculer l’indice d’agrégation entre la nouvelle classe ainsi formée et les autres classes de la partition. Lance et Williams en 1967 ont proposé, lors du regroupement des deux classes , la formule de récurrence suivante : lien minimum lien maximum l’augmentation de l’inertie ou indice de WARD

étape 3 :Classification sur les micro-classes Cette méthode (Chavent 1997, 1998), présentée ici dans le cas particulier des variables de type intervalle, divise à chaque étape une classe en fonction d'une question binaire et du critère d'inertie A chaque étape, la méthode définit la question binaire qui induit la bipartition d’inertie intra-classe minimum.

DIV : méthode de classification divisive • Les K partitions de notre ensemble d’individus • Hiérarchie indicée • Chaque nœud représente une classe • Chaque classe peut être décrite par une règle

Questions binaires variable continue Variable qualitative [X > 3.5] ? • Dans le cas d’une variable continue on évalue toutes coupures possibles c’est-à-dire au maximum n-1 • Pour une variable qualitative ordonnéeY, on évalue ainsi au maximum m-1 bipartitions • Dans le cas d'une variable qualitative non ordonnée, on se heurte vite à un problème de complexité, le nombre de dichotomies du domaine d'observation étant alors égal à 2m-1-1.

Initialisation l’ensemble E forme la partition grossière Étape k Diviser l’une des k classes de la partition en deux classes En sélectionnant une des questions binaires qui optimisent un critère d’évaluation défini sur la partition, En utilisant cette question binaire pour générer deux sous-classes, Remplace la classe précédente par deux nouvelles feuilles associées à ces sous-classes (arbre binaire) Revenir à l’étape k tant que k est plus petit que le nombre de classes donné a priori. Algorithme récursif

Critère d’évaluation Soit P=(P1,…,PK) une partition en K classes Critère d’évaluation W(P) doit être additif Exemple : Inertie intra-classe La réduction du critère d’évaluation revient à maximiser le gain D(Q) associé à la question binaire Q de découper la classe C et deux classes C1 et C2 B étant l’ensemble des questions binaires admissibles

Étape 1: Tous les objets dans la même classe C Étape 2: Diviser successivement chaque classe C en deux classes (C1,C2) en fonction du critère de l’inertie intra-classes étape 2.1: pour chaque variable X , trouver la coupure s qui maximise D(X,s/C)=|w(C) - w(C1)-w(C2)| étape 2.2: choisir la variable X* et la coupure s D(X*,s*/C)=max D(X,s/C) étape 3: diviser la classe C en (C1,C2) Algorithme divisif

C1 C3 C4 C2 C9 C7 C6 C8 C5 Arbre de décision/ Hiérarchie indicée Pas d’ordre de découpage Ordre de construction D C8 C9 C5 C6 C7

Les K partitions de notre ensemble d’individus Hiérarchie indicée Chaque nœud représente une classe Chaque classe peut être décrite par une règle Les résultats

Arbre de classification La règle associée au régime 3 est : Proportion of Soups and Bouillon < 17.28 AND Proportion of fish and Shellfish < 6.87

étape 4 : 3 régimes par Zoom Stars Règle du régime 3 est : Soups and Bouillon < 17.28 AND Fish and Shellfish < 6.87

3 régimes par Zoom Stars

Relation entreles centreset les régimes

Classification de stations de météorologies chinoises Base de données des températures mensuelles de 60 stations météorologiques chinoises depuis un siècle. L’objectif est de classer les profils annuels de ces stations. Chaque station est décrite par 12 variables continues On propose de comparer deux formes d’initialisation de l’algorithme de Kohonen.

Comparaison entre deux types d’initialisation

Initialisation par l’ACP

Hasard

Grille obtenue par une initialisation par l’ACP

Grille obtenue par une initialisation au hasard

DIV sur les 110 neurones

Critère de l’inertie intra-classe

Problème de reconnaissance des formes Cet exemple est issus d’un problème de reconnaissance des formes du livre de L.Breiman, J.H. Friedman, R.A. Oslhen and C. J. Stone "Classification and Regression Trees"; Belmont Eds, 1984. Ces données sont des données simulées

Les trois formes de base Voici les trois formes de base h1, h2eth3. h2(i) h1(i) h3(i)

Ensemble d’apprentissage 3 classes de formes: wave_1, wave_2, wave_3 Pour chaque forme : les 21 donnéesxi i=1 à 21 sont calculées à partir du modèle et d’un bruit Formes de la classewave_1 : xi=u. h1(i)+ (1-u).h3(i)+ei for i=1,...,21. Formes de la classewave_2 : xi=u. h1(i)+ (1-u).h2(i)+ei for i=1,...,21. Formes de la classewave_3 : xi=u. h3(i)+ (1-u).h2(i)+ei for i=1,...,21. • usuit une loi uniforme dans [0,1] • e1,...,e21sont des variables aléatoires indépendantes qui suivent une loi gaussienne de moyenne nulle et de variance unitaire.

Un modèle de forme avec h1 et h3 Le vecteur est obtenu par un échantillonnage sur 21 points 6 5 u=0.1 WAVE 4 3 2 x8 1 x3 0 0 5 10 15 20 25 Variables v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 ....

Analyse en composante principale wave_1 wave_2 wave_3

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

Construction de super-classes à partir de la carte de Kohonen Etude de la robustesse de la carte.

Presentation Transcript

Carte Odyssée

LES ACHATS AU CNRS

Carte de synthèse:

Réunion des gestionnaires 15 novembre 2011

Séance n°1

La carte conceptuelle

Qu’est-ce que c’est ?

Réaléser par : Mariam AYOUB

3 ALS - ASA

CONSTRUIRE UNE CARTE HEURISTIQUE

Principale Utilisation de la Carte à puce d’assuré social CNAS

Carte achat

La localisation des endroits sur une carte

Musée de la carte a jouer

Algorithm Profiles

Croquis de Géographie

1Un petit exercice sur la légende 2 De la photo 1 à la carte 1 3 De la photo 2 à la carte 2

Technologies that Enhance Learning

Între carte şi cititor… S ufletul

Vista Unified School District

LE CLASSIFICAZIONI TRADIZIONALI

Clique sur une carte