600 likes | 777 Views
ELE6302 Reconnaissance de Formes: Synthèse et Applications. Atelier sur les méthodes statistiques Problème d’interprétation. Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins. 3.1 Apprentissage non supervisé: mise en contexte et enjeux. CHAPITRE 3. Plan de la présentation.
E N D
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 ELE6302Reconnaissance de Formes: Synthèse et Applications Atelier sur les méthodes statistiques Problème d’interprétation Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 3.1 Apprentissage non supervisé: mise en contexte et enjeux CHAPITRE 3 Plan de la présentation 3.2 Méthodes paramétriques 3.3 Méthodes non-paramétriques 3.4 Conclusion
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséMise en contexte et enjeux • Pattern Classification = Apprentissage supervisé ET Apprentissage non supervisé • "Unsupervised classification is also known as data clustering, which is a generic label for a variety of procedures designed to find natural groupings, or clusters, in multidimensional data, based on measured of perceived similarities". Anil K. Jain, Statistical Pattern Recognition: A review, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol 22
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséIntroduction • Problème ne parait pas prometteur • Pourquoi s'y interresser ? • Obtenir des données classifiées est couteux et n'est pas toujours possible • Mode exploratoire: que peut-on apprendre des données • Adaptation automatique à des données f(t) • Trouver des caractéristiques utiles à la classification • Connaissance des données est variable: #classes connues / inconnues ?
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséMéthodes disponibles • Méthode paramétriques • Estimation d'un paramètre θ • Maximum Likelihood Estimates • paramètre θ fixe à estimer en fonction des données • Classificateur de Bayes • paramètre θ aléatoire, caractérisé par pdf • Méthodes non-paramétriques • Fonction de densité inconnue • Utilisation d'algorithme itératifs, à optimisation successives (ex: k-means, nearest-neighbour, etc)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséClustering • Clustering = trouver un regroupement naturel des données • Données {x1,x2..xn} à classer dans {c1,c2..ck} • Problème 1: comment définir la similarité • Critères de distances, fonctions de similarité • Problème 2: critère pour l'agglomération en clusters ? • Somme de l'erreur au carré • Variance minimum • Fonction de scattering (inter ou intra classe) • Algorithmes partitionels / hiérarchiques
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 En général, les algorithmes paramétriques essayent de minimiser une fonction de coût ou à optimiser un critère donné et connu d’avance. 2) Les algorithmes paramétriques peuvent être classées dans 2 groupes distincts: Les modèles basés sur les probabilités Et les modèles dits « Reconstructibles » Algorithmes paramétriques:
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèles basés sur les probabilités 1) L’idée générale est qu’on a un vecteur d’instances x1, x2, …, xm qui sont des observations d’un set de K distributions E1, E2, …, Ek. 2) La fonction de densité d’une instance est donnée par fi(xk|θ) pour des paramètres inconnus θ. (Example: la moyenne, la variance, etc.) 3) Sachant que la probabilité que xk appartienne à la distribution Ei vaut Tauik, on cherche a maximiser (ou minimiser l’inverse de) la fonction suivante: Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèles basés sur les probabilités Problématique principale de ce type de modèle 1) Ce type de modèle suppose que l’on connaît à la base la distribution des objets (les données) ce qui n’est pas vrai dans bien des cas. Parfois même, l’information des objets n’est pas numériques Exemples de modèles • Modèle de type « Mélange de Gaussiennes » (Gaussian Mixture) • Modèle de type «C-Mean Fuzzy »
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type Mélange de Gaussiennes (Gaussian Mixture) • Débutons d’abord par une fonction de densité Gaussienne univariable donnée par l’équation suivante: • Si on généralise à une fonction de densité multivariable on obtient l’équation suivante: Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type Mélange de Gaussiennes • Dans ce modèle, il est sous-entendu que l’information à classer provient d’un ensemble de distributions Gaussiennes dont chacun représente un cluster (classe, agrégat, etc.) différent. • On a donc le vecteur colonne x à K dimensions qui contient nos observations, le vecteur colonne μl à K dimensions qui représente les moyennes et ∑l qui est la matrice de covariance de dimension K par K. • Ainsi, les observations (ou instance xi) qui proviennent d’une distribution normale ont tendance à se regrouper dans un même ensemble de points, ou cluster. Le centre des clusters est déterminé par le vecteur de moyennes μl tandis que la forme est déterminée par la matrice de covariance ∑l .
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type « Gaussian Mixture » On obtient donc une représentation de ce type: Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Cependant : gros problème pour obtenir la représentation de la page précédente! On doit donc les estimer! • On ne connaît pas Tauik, μi ,∑i pour i = 1, …, K. • Le maximum de vraisemblance (Maximum likelihood) consiste à voir les paramètres comme des quantités inconnues. Le meilleur estimé est celui qui maximise la probabilité d’obtenir la bonne valeur des paramètres. • Ainsi si on a une certaine fonction de densité gouvernée par un set de paramètres quelconque et qu’on a N observations (xi à xn) tous indépendantes et identiquement distribuées, alors la fonction de densité résultantes est donnée par : Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Expectation Maximalization • Cette méthode est utilisée en probabilité pour trouver la probabilité maximum d’estimés de paramètres (Le maximum de vraisemblance) inconnus dans des modèles de probabilité tels que le modèle « Mélange de Gaussiennes » • L’algorithme fonctionne en deux étapes : d’abord on estime les probabilités en incluant les paramètres latents comme s’ils étaient observable et ensuite on maximise la probabilité estimée lors de l’étape précédente. Les nouvelles valeurs servent à recommencer le processus jusqu’à satisfaction Fonctionnement de l’algorithme • Si on ne peux pas calculer les paramètres inconnus c’est parce qu’on a pas toutes les observations xi possibles. On dit donc que X est un set de données incomplet et on considère qu’il existe un set de données complet Z = (X, Y) et que les observations manquantes partagent la même fonction de densité. Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Expectation Maximalization On peut définir une nouvelle fonction de vraisemblance (likelihood) suivante: • À partir de cette nouvelle fonction de densité: Que l’on appelle la fonction de vraisemblance (likelihood) du set de données complet. • L’étape « Nos attentes » (expectation) de l’algorithme EM consiste à voir cette fonction de vraisemblance du set de données complet comme une fonction ou l’on connaît les observations X ainsi que l’estimé courant des paramètres et que Y est une variable aléatoire.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Expectation Maximalization • Avec θ(i-1)qui est l’estimation courante des paramètres qu’on utilise pour évaluer la première étape et θ qui sont les nouveaux paramètres qu’on optimise pour augmenter Q. On peut ré-écrire l’équation sous cette forme: • La deuxième étape (étape Maximalization) consiste à maximiser la première étape, soit de trouver la valeur des paramètres qui maximisent Q.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Voici un exemple simple qui explique l’algorithme EM Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple de l’algorithme EM Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple de l’algorithme EM Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 De retour au modèle Mélange de Gaussiennes! • Grâce à l’algorithme EM on peut maintenant déterminer la valeur des paramètres inconnues de nos distributions Gaussiennes pour obtenir nos classes de données (clusters) : Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes • Le but est d’estimer la fonction de probabilité une journée en avance pour le Morgan Stanley High Technology Index 35 (MSHT) à la bourse. • Cela est fait par l’utilisation d’un réseau de neurones comprenant une partie du modèle Mélange de Gaussiennes. • L’architecture neuronale utilise une distribution Gaussienne où le centre de chaque Gaussienne dépend de l’input xi tandis que les autres paramètres tels que la largeur de la courbe (variance) sont ajustés durant la période d’entraînement du modèle. • « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes Tiré de « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes • Voici d’abord un réseau de neurones de type Perceptron à multi couches qui a été utilisé comme outil de comparaison avec le réseau de neurone multi couche avec ajout du Mélange de Gaussiennes :
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Voici maintenant l’architecture du réseau de neurone comprenant le Mélange de Gaussiennes :
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes • Son avantage est qu’il permet de prédire une distribution entière au lieu seulement d’une seule classification à la fois grâce à une combinaison linéaire d’une nombre fixe de distribution normal à différents emplacements. • En prenant en compte que les observations sont indépendantes, la fonction de vraisemblance est donnée par: • Le but du modèle est de mélanger les distributions Gaussiennes de la deuxième couche cachée de neurones pour modéliser la fonction de densité de la distribution yt. La largeur des distributions est déterminée selon le set de données d’entraînement et leur centre de position dépend de l’entrée xi. Pour minimiser la fonction de coût ci-dessus, il faut que la distance entre les centres ut et yt soit minimale
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes • Ils utilisent donc l’algorithme EM pour trouver la valeur des poids qui déterminent les centres ut.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle Mélange de Gaussiennes • Voici donc les résultats obtenus en comparaison avec le réseau de neurone multi-couches à perceptrons. • On remarque que le modèle incluant le Mélange de Gaussiennes (GM) donne des pourcentages plus élevés pour les différents indices de performance boursière (Sharpe ratio, positions taken, …, annualised return) comparativement au modèle de réseau de neurones multi-couches à perceptrons (MLP) Tiré de « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type « C-Means Fuzzy » • Au lieu de déterminer si un évènement se produit ou non comme dans les probabilités, la logique Fuzzy mesure plutôt le degré selon lequel cet évènement peut se produire. • Sur cette base, la C-Means Fuzzy Clustering associe à chaque point un degré d’appartenance à un cluster spécifique. Les frontières entre chaque cluster ne sont pas aussi bien définies et un point peut appartenir à plusieurs clusters différents selon un degré d’appartenance.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type « C-Means Fuzzy » • On cherche donc a minimiser la fonction de coût suivante: Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001 Avec Xj le jè vecteur à n dimensions, Ci est le centroid du iè cluster, uij est le degré d’appartenance à ce cluster, d2(Xj, Ci) est la distance entre xj et Ci, M est le nombre de points, tandis que K est le nombre de clusters.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type « C-Means Fuzzy » • L’algorithme se résume donc à : Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Modèle de type « C-Means Fuzzy » DÉMO JAVA!
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Algorithme k-mean • Algorithme à optimisation itérative • Converge vers la minisation de l'erreur au carré • Algorithme • Initialiser k-centres, de facon aleatoire • Repeter jusqu'a ce qu'il n'y ait plus de changement dans la moyenne: • Regrouper les donnees selon les moyennes courantes(utilisation d’un critere de similarite. eg: distance euclidienne) • Recalculer la valeur des centres en fonction de chaque cluster • Arret lorsqu'il n'y a plus de changement dans la moyenne • Demo
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Clustering en haute dimension • Malédiction de la dimensionalité «Unfortunately, all known [clustering] algorithms tend to break down in high dimensional spaces because of the inherent sparsity of the points » CC. Agarwal, Fast Algorithms for Projected Clustering • Techniques de réduction de dimensionalité • Sélections de caractéristiques: trouver k caractéristiques plus significatives, ignorer (d-k) (ICA) • Extraction de caractéristiques: combinaisons linéaires des d-dimensions originales (PCA) • Utiles mais limitées en haute dimension • Meilleure agglomération avec des sous-ensembles de dimensions différents pour chaque cluster • Projected Clustering Problem
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering • Sous-ensemble de dimension est spécifique aux clusters • Nombreux algo: PROCLUS, ORCLUS, FINDIT, EPCH • Exemple étudié: PCKA • Basé sur k-mean • Détection des dimensions superflues • Détection des « outliers » • Meilleure performance face au bruit • Détection basé sur la notion de densité
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective ClusteringÉtape 1 (Formules) • Calcul du centre • Sparseness degree = variance des k-NN • Dense si λij< ε
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective ClusteringÉtape 1 Adaptée de M. Bouguessa,”A K-means-based Algorithm for Projective Clustering » Pattern Recognition, 2006. ICPR 2006. 18th International Conference on
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering(Étape 2) • Application de l’algorithme k-mean, avec quelques différences • Utilisation d’une distance pondérée • Seules les dimensions où les points sont considérés « denses » sont utilisées pour: • Le calcul de la distance • Le calcul des centres des clusters • Résultats: en comparaison à EPC2 • Beaucoup moins sensible au bruit introduit par les outliers • Plus performant lorsque la dimensionalité augmente
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Projective Clustering(Résultats) Adaptée de M. Bouguessa,”A K-means-based Algorithm for Projective Clustering » Pattern Recognition, 2006. ICPR 2006. 18th International Conference on
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Pas de critère visé (aucun fondement sur la distribution des points de data), pas de distance (Euclidienne ou autre) à respecter 2) Nécessite souvent un training set, appelé communément "classificateur de bayes" car selon ce que l'usage considère dans le même ensemble on fait ressortir les dimensions utiles (exemple: reconnaissance d'homme vs femme)) 3) Nombre d'ensembles non-connus Explication d'un algorithme non-paramétrique:
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Explication de ce qu'est un algorithme non-paramétrique (suite): 4) Souvent pas linéaire (méthode de la vallée), pas de représentation explicite nécessaire tel que par distance Euclidienne ou de Minkowski, on fait une matrice de similarité qui peut nécessiter beaucoup d'espace dépendamment des dimensions et peut devenir trop complexe pour plusieurs problèmes de la vie réel) 5) Lorsque les algorithmes créent des point qui sont dans des ensembles différents ou que la « shape » des ensembles se modifient radicalement d'une itération à l'autre, cela donne généralement de très mauvaise performance
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Les grandes approches: • Parzen ou le volume des ensembles est fixe et que son nombre d'échantillons peut varier (Volume idéal des ensembles?) • K-plus proches (inverse de Parzen), donc volume variant mais ou le nombre de point par ensemble est fixe (Nombre idéal d’ensembles?)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Type de distance (applicable aux 2 types d'approche) : • Distance Euclidienne: distance(x,y) = (Σi (xi - yi)2) (1/2) • Distance Euclidienne au carré: distance(x,y) = Σi (xi - yi)2 • Distance City-block (Manhattan): distance(x,y) = Σi |xi - yi| • Distance de Chebychev : distance(x,y) = Maximum|xi - yi| • Distance de puissance: distance(x,y) = Σ ( i |xi - yi|p)1/r • Autres...
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Hiérarchie selon les dimensions Nécessitent donc plusieurs itérations Tiré de « Clustering », Milos Hauskrecht, milos@cs.pitt.edu Tiré de
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Défaut du dendrogramme Tiré de « Nonparametric Density estimation, Unsupervised Learning - Clustering », Ahmed Elgammal, Ruthers University, Automne 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 2 Types • Agglomerative (tous les éléments sont séparés au commencement et toutes ces caractéristiques s'appliquent à divisive) - on arrête lorsque nous trouvons que notre rayon ou que notre nombre de points est suffisant élevé - utilisation d'un « treshold » (à 0 signifie que tous les data sont un cluster et un énorme « treshold » ne fait qu'un ensemble) - sensible à une erreur fait antérieurement qui modifierait tout l'arbre car une fois qu'un point (ou data est dans une certaine branche il ne peut être changer de place) 2) Divisive (inverse d'agglomerative)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Les méthodes de Parzen: • Fenêtre naïve (fenêtre statique), grande discontinuité dans le nombre de points de chacun des ensembles, par contre met en évidence les discontinuités • Vue que cet algorithme est trop ferme, il existe la régression de noyau tel que Gaussien (les extrema ont donc des volumes plus grands et plus on va vers le centre plus les volumes rétrécissent), permet alors d'avoir des densités beaucoup mieux réparties mais est toujours avec un volume fixe.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Algorithmes de linkage ou de K-plus proche En réponse à ces fenêtres fixes (Parzen) qui donnent quand même peu d'informations et disent pas s’il y a une discontinuité dans un même ensemble, les algorithmes de linkage: Single Linkage: • Algorithme de K plus proches ou on débute avec tous les points considérés comme des ensembles • Pour toutes paires d'ensemble on calcule la distance entre chacun d'eux • On regroupe alors les plus proches ensemble • On répète le procédé pour tous les ensembles jusqu'à ce que le nombre d'ensembles désirés soit obtenus
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Single linkage » Tiré de « Nonparametric Density estimation, Unsupervised Learning - Clustering », Ahmed Elgammal, Ruthers University, Automne 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Average distance linkage • Algorithme basé sur le single link • Distance basé sur la moyenne de chacun des points d'un ensemble aux points d'un autre ensemble • Plus précis mais nécessite beaucoup plus de calcul
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Illustration d’un algorithme « Average linkage » Tiré de « A Comprehensive Overview of Basic Clustering Algithms », Glenn Fung, 22 juin 2001