1 / 27

Regroupement (Clustering)

Regroupement (Clustering). Christelle Scharff IFI 2004. Généralités. Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe 2 optimisations: Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe)

ronalee
Download Presentation

Regroupement (Clustering)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regroupement (Clustering) Christelle Scharff IFI 2004

  2. Généralités • Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe • 2 optimisations: • Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe) • Similarités entre les données de différents groupes aussi distinctes que possible (inter-groupe) • Apprentissage non supervisé • Les classes sont inconnues

  3. Applications • Segmentation de l’ensemble des clients d’une entreprise en fonction de leur démographie ou de leurs habitudes d’achat • Grouper les habitations d’une ville en quartiers • Grouper des documents pour des présentations • Identifier de nouvelles espèces animales ou végétales

  4. Exemple: Regroupement de personnes Sexe, lunettes, sourire, chapeau

  5. Regroupement • Méthode 1: Hiérarchie • Hiérarchie des groupes de données représentée par un dendrogramme • Un dendrogramme est un arbre binaire de groupes • Le nombre de groupes peut être choisi post-hoc • On coupe horizontalement le dendrogramme à un niveau précis pour obtenir le nombre de groupes choisi

  6. Exemple: Hiérarchie

  7. Dendrogramme

  8. Regroupement • Méthode 2: Partitionnement • Construction d’une partition des données en k groupes • K est choisi à l’avance • Comment? • Énumération de toutes les partitions • Heuristique: • Algorithme des k moyennes [McQueen, 1967] • Chaque cluster est représenté par son centre • Commencer avec k groupes et raffiner les groupes itérativement

  9. Mesure des similarités / différences Utilisation d’un fonction de distance Distance Euclidienne: Distance de sommation:  Distance Euclidienne ponderee: 

  10. Structures de données • Les données (n lignes) • Matrice des distances (similarités) entre les données: d(i,j): distance entre la donnée i et la donnée j

  11. Hiérarchies

  12. Hiérarchies • Méthode descendante (Division) • Commencer avec un groupe contenant toutes les données • Séparer les groupes en plus petits groupes jusqu’a ce que chaque groupe ne contiennent plus qu’un exemple • Méthode ascendante (Agglomération) • La méthode la plus communément utilisée • Commencer avec des groupes d’un exemple • Combiner les groupes jusqu’a ce qu’il n’y ait plus qu’un seul groupe (contenant toutes les données)

  13. Comment construire les groupes? (1) • Lien simple (Simple linkage) • La distance entre 2 groupes G1 et G2 est: Min(Distance(x,y)), où x est un élément de G1 et y est un élément de G2 • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes  matrice nxn) • Les groupes qui sont les plus proches sont combinés

  14. Comment construire les groupes? (2) • Lien complet (Complete linkage) • La distance entre 2 groupes G1 et G2 est: Max(Distance(x,y)), où x est un élément de G1 et y est un élément de G2 • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes  matrice nxn) • Les groupes qui sont les plus éloignés sont combinés

  15. Comment construire les groupes? (3) • Lien moyen (Average linkage) • La distance entre 2 groupes est définie comme la distance moyenne entre toutes les paires d’éléments des 2 groupes • Elle est calculée de la manière suivante: • La distance entre un groupe G1 et un groupe G2 est 1/(mn)  distance(x,y) pour x dans G1 et y dans G2, |G1| = n et |G2| = m • Les groupes qui sont les plus proches sont combinés

  16. Exemple: Lien Simple

  17. Exemple: Dendrogramme Dendrogramme: Représentation graphique des groupes et des combinaisons des groupes

  18. Exemple: 2 groupes

  19. Exemple: 6 groupes

  20. Discussion • Méthode très intuitive • Facile à implémenter • Méthode coûteuse • n2 calculs à chaque étape • n: nombre de groupes

  21. Méthode des k moyennes

  22. Groupe • Un groupe est représenté par son centre • Le centre d’un groupe est obtenu par le calcul des moyennes des éléments du groupe

  23. Exemple: Centre

  24. Algorithme • K est donné. L’algorithme est composé de 4 étapes: • Partitionnement des données en k sous-ensembles (non vides) • Calcul des centres des groupes de la partition courante • Les données sont affectées au groupe dont le centre leur est le plus proche • Retour à l’étape 2 • Arrêt lorsqu’il n’y a plus de données a affecter a un nouveau groupe

  25. Exemple

  26. Discussion • n calculs à chaque étape • On spécifie le nombre de groupe à l’avance • Sensibilité au choix du nombre de groupes • Problèmes avec les groupes non convexes • On a besoin de pouvoir calculer les moyennes sur les attributs

  27. Références • Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University. • Multivariate Statistics: Concepts, Models, and Applications. W. Stockburger. • J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann. • Data Mining: A Tutorial-Based Primer. Richard J. Roiger & Michael W. Geatz. Addison Wesley. • N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases.

More Related