270 likes | 638 Views
Classification non supervis?e. Id?e: identifier une partition des donn?es telle que les objets d'une m?me classe se ressemblent le plus possible et que des objets de classes diff?rentes soient le plus diff?rents possible.. Objectifs. On cherche ? satisfaire deux objectifs simultan?ment:Grande homo
E N D
1. Classification non supervisée Objectif:
grouper les données en groupes afin de faire de découvrir une structure à ces données.
2. Classification non supervisée
Idée: identifier une partition des données telle que les objets d’une même classe se ressemblent le plus possible et que des objets de classes différentes soient le plus différents possible.
3. Objectifs On cherche à satisfaire deux objectifs simultanément:
Grande homogénéïté de chaque classe
Bonne séparation des classes
Dans le but de satisfaire ces objectifs, les algorithmes sont souvent implémentés en utilisant une matrice des dissimilarités
4. La matrice de dissimilarités Indique les dissimilarités entre différents objets.
Cette dissimilarité est calculée en utilisant une métrique ou norme (Ex: euclidienne, de manhattan, etc…)
Importance du choix approprié de l’échelle car une échelle inappropriée donnera une matrice de dissimilarités non représentative des données.
5. Illustration de l’importance du choix de l’échelle
6. Illustration de l’importance du choix de l’échelle
7. Illustration de l’importance du choix de l’échelle
8. Critères Minimiser le diamètre de chaque classe
Maximiser la distance entre les objets les plus proches de deux classes différentes
Minimiser la variance au sein de chaque classe
Et bien d’autres…
9. Algorithmes de classification Classification ascendente hierarchique
Classification divisive
Classification avec nombre fixé de classes
10. Les méthodes hierarchiques de classification Les méthodes hierachiques de classification sont récursives, ce qui signifie que les décisions prises à un niveau ne pas modifiées au cours de l’execution de l’algorithme, que ces méthodes soient ascendentes ou descendente (divisives).
11. Les algorithmes de classification ascendente hierarchique Les algorithmes de classification ascendentes partent d’une partition où chaque objet représente une classe.
À chaque itération, deux classes sont fusionnées afin de donner une partition avec une classe de moins.
Selon la méthode utilisée, le choix des classes à fusionner changera.
12. Méthodes de classification ascendente hierarchique Méthode du lien simple
Méthode du lien complet
Méthode de Ward (minimisation de la somme des carrée des distances)
Schéma général qui s’appliquera de manière très similaire pour chacun des critères.
13. Méthode du lien simple À chaque itération, la paire d’objets de classes différentes les plus proches est choisie et leurs classes sont fusionnées.
14. Méthode du lien simple La méthode du lien simple a la propriété de garantir à chaque niveau que l’écart entre les classes est maximum (distance entre les objets les plus proches).
C’est une bonne méthode pour la séparation.
15. Illustration de la méthode du lien simple
16. Exemple
17. Partitions
18. Méthode du lien complet À chaque itération, nous considérons pour chaque paire de classes la distance entre les objets les plus éloignés.
La paire de classes pour laquelle cette distance est minimale est fusionnée.
C’est une bonne méthode pour l’homogénéïté, même si elle n’assure pas la partition de diamètre minimum.
19. Illustration de la méthode du lien complet
20. Le dendrogramme À partir des étapes d’un algorithmes de classification hierarchique, nous pouvons construire un dendrogramme.
Non seulement le dendrogramme indique les objets et classes qui ont été fusionnées à chaque itération, mais indiquent aussi la valeur du critère choisi pour chaque partition rencontrée
21. Exemple de dendrogramme(cas du lien simple)
22. Défauts des algorithmes hierarchiques Difficilement utilisables avec de grosses bases de données (Data Mining)
Sous optimaux pour la plupart des critères car il est souvent possible, le nombre de classes étant fixé, de trouver une partition meilleure (pour le critère choisi).
23. Algorithmes non hierarchiques Le plus connu de ces algorithmes est nommé k-means.
Le critère est de minimiser la somme des carrés des écarts aux centroides de chaque classe.
Cet algorithme suppose que nous connaissions le nombre de classes voulu.
24. K-means Initialisation: partitionner les objets par une méthode quelconque (partition aléatoire par exemple)
Phase 1: pour chaque classe, calculer le centroide.
Phase 2: affecter chaque objet au centroide dont il est le plus proche. Si au moins un objet a changé de classe, revenir à la phase 1 si non: Fin
25. K-means Cette méthode a l’avantage d’être rapide à converger vers un optimum local
Par contre, l’optimum local rencontré dépend fortement de la solution initiale; c’est donc pas forcément une bonne solution.
En général, afin d’améliorer la solution, on utilise le «multi-start».
26. K-means K-means tel que décrit plus tôt fonctionne assez bien si le nombre de classes voulu est modéré.
Dès que le nombre de classes augmente, la solution trouvée par l’algorithme est médiocre, voire carrément mauvaise (2 ou 3 fois moins bonne que la solution optimale)
27. K-means Il y a plusieurs raisons à cette contre performance:
La méthode de descente elle-même qui pousse à rester proche de la solution courante en la renforcant par des modifications marginales, ce qui donne une grande inportance à la solution initiale.
Le multistart est mauvais si le nombre d’optimums locaux est grand
28. K-means amélioré Changer l’algorithme de descente n’est pas une bonne idée car il est vraiment très rapide par rapport aux autres qui ne sont simplement pas utilisables pour le Data-mining.
Il faut donc un autre moyen de sortir de l’optimum local, par exemple en utilisant des métaheuristiques.