460 likes | 600 Views
ELE6302 Reconnaissance de Formes: Synthèse et Applications. Atelier sur les méthodes statistiques Problème d’interprétation. Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins. 3.1 Apprentissage non supervisé: mise en contexte et enjeux. CHAPITRE 3. Plan de la présentation.
E N D
ELE6302Reconnaissance de Formes: Synthèse et Applications Atelier sur les méthodes statistiques Problème d’interprétation Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
3.1 Apprentissage non supervisé: mise en contexte et enjeux CHAPITRE 3 Plan de la présentation 3.2 Méthodes paramétriques 3.3 Méthodes non-paramétriques 3.4 Conclusion ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséMise en contexte et enjeux • Pattern Classification = Apprentissage supervisé ET Apprentissage non supervisé • "Unsupervised classification is also known as data clustering, which is a generic label for a variety of procedures designed to find natural groupings, or clusters, in multidimensional data, based on measured of perceived similarities". Anil K. Jain, Statistical Pattern Recognition: A review, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol 22
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséIntroduction • Problème ne parait pas prometteur • Pourquoi s'y interresser ? • Obtenir des données classifiées est couteux et n'est pas toujours possible • Mode exploratoire: que peut-on apprendre des données • Adaptation automatique à des données f(t) • Trouver des caractéristiques utiles à la classification • Connaissance des données est variable: #classes connues / inconnues ?
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséMéthodes disponibles • Méthode paramétriques • Estimation d'un paramètre θ • Maximum Likelihood Estimates • paramètre θ fixe à estimer en fonction des données • Classificateur de Bayes • paramètre θ aléatoire, caractérisé par pdf • Méthodes non-paramétriques • Fonction de densité inconnue • Utilisation d'algorithme itératifs, à optimisation successives (ex: k-means, nearest-neighbour, etc)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséClustering • Clustering = trouver un regroupement naturel des données • Données {x1,x2..xn} à classer dans {c1,c2..ck} • Problème 1: comment définir la similarité • Critères de distances, fonctions de similarité • Problème 2: critère pour l'agglomération en clusters ? • Somme de l'erreur au carré • Variance minimum • Fonction de scattering (inter ou intra classe) • Algorithmes partitionels / hiérarchiques
En général, les algorithmes paramétriques essayent de minimiser une fonction de coût ou à optimiser un critère donné et connu d’avance. 2) Les algorithmes paramétriques peuvent être classées dans 2 groupes distincts: Les modèles basés sur les probabilités Et les modèles dits « Reconstructibles » Algorithmes paramétriques: ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèles basés sur les probabilités 1) L’idée générale est qu’on a un vecteur d’instances x1, x2, …, xm qui sont des observations d’un set de K distributions E1, E2, …, Ek. 2) La fonction de densité d’une instance est donnée par fi(xk|θ) pour des paramètres inconnus θ. (Example: la moyenne) 3) Sachant que la probabilité que xk appartienne à la distribution Ei vaut Tauik, on cherche a maximiser (ou minimiser l’inverse de) la fonction suivante: Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèles basés sur les probabilités Problématique principale 1) Ce type de modèle suppose qu’on connaît à la base la distribution des objets (du data) ce qui n’est pas vrai dans bien des cas. Parfois même, l’information des objets n’est pas numériques Exemples de modèles • Modèle de type « Gaussian Mixture » • Modèle de type «C-Mean Fuzzy » ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « Gaussian Mixture » • Dans ce modèle, il est sous-entendu que l’information à classer provient d’un ensemble de distributions Gaussiennes dont chacun représente un cluster(classe) différent. • On associe donc à chaque distribution un vecteur de moyenne μi et une matrice de covariance ∑i. • On cherche donc la p.d.f (probability density function) d’un objet xi qui est donné par p(xi;θ) = Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « Gaussian Mixture » Afin de pouvoir obtenir des clusters distincts. Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Gros problème!!! Solutions pour trouver les valeurs maximums!!! 1) On ne connaît pas Taui, μi ,∑i pour i = 1, …, K. • Méthode du gradient descendant • Méthode EM (Expectation, Maximalization) On choisit: Méthode EM ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Expectation Maximalization • Cette méthode est utilisée en probabilité pour trouver la probabilité maximum d’estimés de paramètres inconnus dans des modèles de probabilité tels que le modèle « Gaussian Mixture » • L’algorithme fonctionne en deux étapes : d’abord on estime les probabilités en incluant les paramètres latents comme s’ils étaient observable et ensuite on maximise la probabilité estimée lors de l’étape précédente. Les nouvelles valeurs servent à recommencer le processus jusqu’à satisfaction Rien de mieux qu’un exemple pour comprendre! ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple: Expectation, Maximization Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple: Expectation, Maximization Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple: Expectation, Maximization Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Algorithme k-mean • Algorithme à optimisation itérative • Converge vers la minisation de l'erreur au carré • Algorithme • Initialiser k-centres, de facon aleatoire • Repeter jusqu'a ce qu'il n'y ait plus de changement dans la moyenne: • Regrouper les donnees selon les moyennes courantes(utilisation d’un critere de similarite. eg: distance euclidienne) • Recalculer la valeur des centres en fonction de chaque cluster • Arret lorsqu'il n'y a plus de changement dans la moyenne • Demo
Modèle de type « C-Means Fuzzy » • Au lieu de déterminer si un évènement se produit ou non comme dans les probabilités, la logique Fuzzy mesure plutôt le degré selon lequel cet évènement peut se produire. • Sur cette base, la C-Means Fuzzy Clustering associe à chaque point un degré d’appartenance à un cluster spécifique. Les frontières entre chaque cluster ne sont pas aussi bien définies et un point peut appartenir à plusieurs clusters différents selon un degré d’appartenance. ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « C-Means Fuzzy » • On cherche donc a minimiser la fonction de coût suivante: Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001 Avec Xj le jè vecteur à n dimensions, Ci est le centroid du iè cluster, uij est le degré d’appartenance à ce cluster, d2(Xj, Ci) est la distance entre xj et Ci, M est le nombre de points, tandis que K est le nombre de clusters. ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « C-Means Fuzzy » • L’algorithme se résume donc à : Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « C-Means Fuzzy » DÉMO JAVA!!! ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Clustering en haute dimension • Malédiction de la dimensionalité «Unfortunately, all known [clustering] algorithms tend to break down in high dimensional spaces because of the inherent sparsity of the points » CC. Agarwal, Fast Algorithms for Projected Clustering • Techniques de réduction de dimensionalité • Sélections de caractéristiques: trouver k caractéristiques plus significatives, ignorer (d-k) (ICA) • Extraction de caractéristiques: combinaisons linéaires des d-dimensions originales (PCA) • Utiles mais limitées en haute dimension • Meilleure agglomération avec des sous-ensembles de dimensions différents pour chaque cluster • Projected Clustering Problem
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering • Sous-ensemble de dimension est spécifique aux clusters • Nombreux algo: PROCLUS, ORCLUS, FINDIT, EPCH • Exemple étudié: PCKA • Basé sur k-mean • Détection des dimensions superflues • Détection des « outliers » • Meilleure performance face au bruit • Détection basé sur la notion de densité
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective ClusteringÉtape 1 (Formules) • Calcul du centre • Sparseness degree = variance des k-NN • Dense si λij< ε
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective ClusteringÉtape 1 Adaptée de M. Bouguessa,”A K-means-based Algorithm for Projective Clustering » Pattern Recognition, 2006. ICPR 2006. 18th International Conference on
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering(Étape 2) • Application de l’algorithme k-mean, avec quelques différences • Utilisation d’une distance pondérée • Seules les dimensions où les points sont considérés « denses » sont utilisées pour: • Le calcul de la distance • Le calcul des centres des clusters • Résultats: en comparaison à EPC2 • Beaucoup moins sensible au bruit introduit par les outliers • Plus performant lorsque la dimensionalité augmente
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering(Résultats) Adaptée de M. Bouguessa,”A K-means-based Algorithm for Projective Clustering » Pattern Recognition, 2006. ICPR 2006. 18th International Conference on
Pas de critère visé (aucun fondement sur la distribution des points de data), pas de distance (Euclidienne ou autre) à respecter 2) Nécessite souvent un training set, appelé communément "classificateur de bayes" car selon ce que l'usage considère dans le même ensemble on fait ressortir les dimensions utiles (exemple: reconnaissance d'homme vs femme)) 3) Nombre d'ensembles non-connus Explication d'un algorithme non-paramétrique: ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Explication de ce qu'est un algorithme non-paramétrique (suite): 4) Souvent pas linéaire (méthode de la vallée), pas de représentation explicite nécessaire tel que par distance Euclidienne ou de Minkowski, on fait une matrice de similarité qui peut nécessiter beaucoup d'espace dépendamment des dimensions et peut devenir trop complexe pour plusieurs problèmes de la vie réel) 5) Lorsque les algorithmes créent des point qui sont dans des ensembles différents ou que la « shape » des ensembles se modifient radicalement d'une itération à l'autre, cela donne généralement de très mauvaise performance
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Les grandes approches: • Parzen ou le volume des ensembles est fixe et que son nombre d'échantillons peut varier (Volume idéal des ensembles?) • K-plus proches (inverse de Parzen), donc volume variant mais ou le nombre de point par ensemble est fixe (Nombre idéal d’ensembles?)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Type de distance (applicable aux 2 types d'approche) : • Distance Euclidienne: distance(x,y) = (Σi (xi - yi)2) (1/2) • Distance Euclidienne au carré: distance(x,y) = Σi (xi - yi)2 • Distance City-block (Manhattan): distance(x,y) = Σi |xi - yi| • Distance de Chebychev : distance(x,y) = Maximum|xi - yi| • Distance de puissance: distance(x,y) = Σ ( i |xi - yi|p)1/r • Autres...
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Hiérarchie selon les dimensions Nécessitent donc plusieurs itérations Tiré de « Clustering », Milos Hauskrecht, milos@cs.pitt.edu Tiré de
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Défaut du dendrogramme Tiré de « Nonparametric Density estimation, Unsupervised Learning - Clustering », Ahmed Elgammal, Ruthers University, Automne 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 2 Types • Agglomerative (tous les éléments sont séparés au commencement et toutes ces caractéristiques s'appliquent à divisive) - on arrête lorsque nous trouvons que notre rayon ou que notre nombre de points est suffisant élevé - utilisation d'un « treshold » (à 0 signifie que tous les data sont un cluster et un énorme « treshold » ne fait qu'un ensemble) - sensible à une erreur fait antérieurement qui modifierait tout l'arbre car une fois qu'un point (ou data est dans une certaine branche il ne peut être changer de place) 2) Divisive (inverse d'agglomerative)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Les méthodes de Parzen: • Fenêtre naïve (fenêtre statique), grande discontinuité dans le nombre de points de chacun des ensembles, par contre met en évidence les discontinuités • Vue que cet algorithme est trop ferme, il existe la régression de noyau tel que Gaussien (les extrema ont donc des volumes plus grands et plus on va vers le centre plus les volumes rétrécissent), permet alors d'avoir des densités beaucoup mieux réparties mais est toujours avec un volume fixe.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Algorithmes de linkage ou de K-plus proche En réponse à ces fenêtres fixes (Parzen) qui donnent quand même peu d'informations et disent pas s’il y a une discontinuité dans un même ensemble, les algorithmes de linkage: Single Linkage: • Algorithme de K plus proches ou on débute avec tous les points considérés comme des ensembles • Pour toutes paires d'ensemble on calcule la distance entre chacun d'eux • On regroupe alors les plus proches ensemble • On répète le procédé pour tous les ensembles jusqu'à ce que le nombre d'ensembles désirés soit obtenus
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Single linkage » Tiré de « Nonparametric Density estimation, Unsupervised Learning - Clustering », Ahmed Elgammal, Ruthers University, Automne 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Average distance linkage • Algorithme basé sur le single link • Distance basé sur la moyenne de chacun des points d'un ensemble aux points d'un autre ensemble • Plus précis mais nécessite beaucoup plus de calcul
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Average linkage » Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Centroid linkage • Toujours basé sur le single link • Distance mesuré entre le centre d'un ensemble (moyenne des coordonnées de l'ensemble) et le centre d'un autre groupe • Généralement même défaut et avantage que l'average link mais les distances sont plus petites à calculer
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Centroid linkage » Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Complete linkage • Encore un algorithme de linkage • La distance est calculé par les deux point les plus éloignées de leur ensemble respectif • Prend en compte le pire cas, mais si un point est tout seul dans l'espace car il a été soumis à du bruit l'algorithme peut devenir erroné, nécessite peu de calcul et donc très rapide, mois performant si les points forme un ensemble de forme plus allongé
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Complete linkage » Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Récapitulation des algorithmes de linkages: • Méthode simple qui classifie toutes les données • Parzen est très rapide mais peu fiable tandis que les algorithmes de linkage sont beaucoup plus fiable mais peut devenir longs car nécessitent beaucoup de mémoire pour sauvegarder toutes les dernières configurations • Les point qui sont bruités sont tout de même classé sans être remis en cause
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Conclusion • Existe une vaste étendue de technique et d'algorithmes d'apprentissage non-supervisé • Certains choses à garder en tête: • “Every clustering algorithm will find clusters in a given dataset whether they exist or not” • Est-ce que les données ont une tendance d'agglomération ? • Il faut valider les clusters générés par notre algorithme • “There is no 'best' clustering algorithm” • Try multiple algorithms Anil K. Jain, Statistical Pattern Recognition: A review, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol 22
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 References • Anil K. Jain, Statistical Pattern Recognition: A review, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol 22 • Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classification” - Second Edition • Ethem ALPAYDIN, Introduction to Machine Learning, The MIT Press, Octobre 2004 • Rejean Plamondon, ELE6302 – Notes de Cours, Ecole Polytechnique de Montreal • M. Bouguessa, “A K-means based Algorithm for Projective Clustering”, 18th International Conference on Pattern Recognition, 2006. ICPR 2006. • Glenn Fung, « A Comprehensive Overview of Basic Clustering Algithms », 22 juin 2001 • Milos Hauskrecht, "Clustering", CS2750 Machine Learning, University of Pittsburgh • Ahmed Elgammal, "Nonparametric Density estimation, Unsupervised Learning - Clustering", Ruthers University, Automne 2005 • Sariel Har-Peled, "Clustering - Definitions and Basic Algorithms" • Peter Dayan, "Unsupervised Learning", The MIT Encyclopedia of the Cognitive Sciences • Andrew W. Moore, « Clustering with Gaussian Mixtures », wwww.cs.edu/~awm/tutorials, 2004