280 likes | 394 Views
Regroupement (Clustering). Christelle Scharff IFI 2004. Généralités. Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe 2 optimisations: Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe)
E N D
Regroupement (Clustering) Christelle Scharff IFI 2004
Généralités • Organisation des données en groupes (clusters) de façon à ce que les données similaires soient dans le même groupe • 2 optimisations: • Similarités entre les données dans un groupes aussi élevées que possible (intra-groupe) • Similarités entre les données de différents groupes aussi distinctes que possible (inter-groupe) • Apprentissage non supervisé • Les classes sont inconnues
Applications • Segmentation de l’ensemble des clients d’une entreprise en fonction de leur démographie ou de leurs habitudes d’achat • Grouper les habitations d’une ville en quartiers • Grouper des documents pour des présentations • Identifier de nouvelles espèces animales ou végétales
Exemple: Regroupement de personnes Sexe, lunettes, sourire, chapeau
Regroupement • Méthode 1: Hiérarchie • Hiérarchie des groupes de données représentée par un dendrogramme • Un dendrogramme est un arbre binaire de groupes • Le nombre de groupes peut être choisi post-hoc • On coupe horizontalement le dendrogramme à un niveau précis pour obtenir le nombre de groupes choisi
Regroupement • Méthode 2: Partitionnement • Construction d’une partition des données en k groupes • K est choisi à l’avance • Comment? • Énumération de toutes les partitions • Heuristique: • Algorithme des k moyennes [McQueen, 1967] • Chaque cluster est représenté par son centre • Commencer avec k groupes et raffiner les groupes itérativement
Mesure des similarités / différences Utilisation d’un fonction de distance Distance Euclidienne: Distance de sommation: Distance Euclidienne ponderee:
Structures de données • Les données (n lignes) • Matrice des distances (similarités) entre les données: d(i,j): distance entre la donnée i et la donnée j
Hiérarchies • Méthode descendante (Division) • Commencer avec un groupe contenant toutes les données • Séparer les groupes en plus petits groupes jusqu’a ce que chaque groupe ne contiennent plus qu’un exemple • Méthode ascendante (Agglomération) • La méthode la plus communément utilisée • Commencer avec des groupes d’un exemple • Combiner les groupes jusqu’a ce qu’il n’y ait plus qu’un seul groupe (contenant toutes les données)
Comment construire les groupes? (1) • Lien simple (Simple linkage) • La distance entre 2 groupes G1 et G2 est: Min(Distance(x,y)), où x est un élément de G1 et y est un élément de G2 • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes matrice nxn) • Les groupes qui sont les plus proches sont combinés
Comment construire les groupes? (2) • Lien complet (Complete linkage) • La distance entre 2 groupes G1 et G2 est: Max(Distance(x,y)), où x est un élément de G1 et y est un élément de G2 • On calcule les distances entre tous les groupes en utilisant une matrice des distances (n groupes matrice nxn) • Les groupes qui sont les plus éloignés sont combinés
Comment construire les groupes? (3) • Lien moyen (Average linkage) • La distance entre 2 groupes est définie comme la distance moyenne entre toutes les paires d’éléments des 2 groupes • Elle est calculée de la manière suivante: • La distance entre un groupe G1 et un groupe G2 est 1/(mn) distance(x,y) pour x dans G1 et y dans G2, |G1| = n et |G2| = m • Les groupes qui sont les plus proches sont combinés
Exemple: Dendrogramme Dendrogramme: Représentation graphique des groupes et des combinaisons des groupes
Discussion • Méthode très intuitive • Facile à implémenter • Méthode coûteuse • n2 calculs à chaque étape • n: nombre de groupes
Groupe • Un groupe est représenté par son centre • Le centre d’un groupe est obtenu par le calcul des moyennes des éléments du groupe
Algorithme • K est donné. L’algorithme est composé de 4 étapes: • Partitionnement des données en k sous-ensembles (non vides) • Calcul des centres des groupes de la partition courante • Les données sont affectées au groupe dont le centre leur est le plus proche • Retour à l’étape 2 • Arrêt lorsqu’il n’y a plus de données a affecter a un nouveau groupe
Discussion • n calculs à chaque étape • On spécifie le nombre de groupe à l’avance • Sensibilité au choix du nombre de groupes • Problèmes avec les groupes non convexes • On a besoin de pouvoir calculer les moyennes sur les attributs
Références • Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University. • Multivariate Statistics: Concepts, Models, and Applications. W. Stockburger. • J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann. • Data Mining: A Tutorial-Based Primer. Richard J. Roiger & Michael W. Geatz. Addison Wesley. • N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases.