450 likes | 590 Views
ELE6302 Reconnaissance de Formes: Synthèse et Applications. Atelier sur les méthodes statistiques Problème d’interprétation. Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins. 3.1 Retour sur l’algorithme Gaussian-Mixture,
E N D
ELE6302Reconnaissance de Formes: Synthèse et Applications Atelier sur les méthodes statistiques Problème d’interprétation Équipe 2: Julien Laferrière Francis Audette Guillaume Desjardins ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
3.1 Retour sur l’algorithme Gaussian-Mixture, plus algorithme EM CHAPITRE 3 Plan de la présentation 3.2 Exemples d’applications 3.2.1 Prédictions boursières 3.2.2 Lectures de codes barres et codes 2D 3.2.3 Segmentation d’images 3.2.4 EEG: extraction de potentiels d’actions ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséContexte d'applications • Applications • Intelligence / Perception artificielle • Traitement, compression d'images • Biomédicales: imagerie, génétique, analyse de signaux • Exploration de données • Marketing: détection de niches, connaitre sa clientèle • Analyse de réseaux sociaux • Marché boursier: prédiction des tendances
Gaussian Mixture + Expectation Maximization ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « Gaussian Mixture » • Débutons d’abord par une fonction de densité normale univariable donnée par l’équation suivante: • Si on généralise à une fonction de densité multivariable on obtient l’équation suivante: Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « Gaussian Mixture » • Dans ce modèle, il est sous-entendu que l’information à classer provient d’un ensemble de distributions Gaussiennes dont chacun représente un cluster(classe) différent. • On a donc le vecteur colonne x à k dimensions qui contient nos observations, le vecteur colonne μl à k dimensions qui représente les moyennes et ∑l qui est la matrice de covariance de dimension k par k. • Ainsi, les observations (ou instance xi) qui proviennent d’une distribution normale ont tendance à se regrouper dans un même ensemble de points, ou cluster. Le centre des clusters est déterminé par le vecteur de moyennes μl tandis que la forme est déterminée par la matrice de covariance ∑l . ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Modèle de type « Gaussian Mixture » On obtient donc une représentation de ce type: Tiré de « Clustering with Gaussian Mixtures », Andrew W. Moore 2004 @ www.cs.edu/~awm/tutorials ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Gros problème!!! On doit donc les estimer!!! • On ne connaît pas Taui, μi ,∑i pour i = 1, …, K. • Maximum likelihood consiste à voir les paramètres comme des quantités inconnues. Le meilleur estimé est celui qui maximise la probabilité d’obtenir la bonne valeur des paramètre. • Ainsi si on a une certaine fonction de densité gouvernée par un set de paramètres quelconque et qu’on a N observation (xi à xn) tous indépendantes et identiquement distribuées alors la fonction de densité résultantes est donnée par : Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Expectation Maximalization • Cette méthode est utilisée en probabilité pour trouver la probabilité maximum d’estimés de paramètres (Maximum Likelihood) inconnus dans des modèles de probabilité tels que le modèle « Gaussian Mixture » • L’algorithme fonctionne en deux étapes : d’abord on estime les probabilités en incluant les paramètres latents comme s’ils étaient observable et ensuite on maximise la probabilité estimée lors de l’étape précédente. Les nouvelles valeurs servent à recommencer le processus jusqu’à satisfaction • Si on ne peux pas calculer les paramètres inconnus c’est parce qu’on a pas toutes les observations xi possibles. On dit donc que X est une data set incomplet et on considère qu’il existe un data set complet Z = (X, Y) et que les observations manquantes partage la même fonction de densité. Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Expectation Maximalization • À partir de cette nouvelle fonction de densité: On peut définir une nouvelle fonction « likelihood » suivante: Que l’on appelle la fonction likelihood du data set complet. • L’étape « Expectation » ou « Nos Attentes » en français de l’algorithme EM consiste à voir cette fonction de likelihood du data set complet comme une fonction ou l’on connaît les observations X, l’estimé courant des paramètres et que Y est une variable aléatoire. ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Expectation Maximalization • Avec θ(i-1)qui est l’estimation courante des paramètres qu’on utilise pour évaluer l’expectation et θ sont les nouveaux paramètres qu’on optimise pour augmenter Q. On peut ré-écrire l’équation sous cette forme: • La deuxième étape (étape Maximalization) consiste à maximiser la première étape soit de trouver la valeur des paramètres qui maximisent Q.
De retour au modèle « Gaussian Mixture »!!! • Grâce à l’algorithme EM on peut maintenant déterminer la valeur des paramètres inconnues de nos distributions Gaussiennes : Tiré de « A gentle tutorial of the EM Algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models », Jeff A. Bilmes, april 1998 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
Exemple d’application du modèle « Gaussian Mixture » • Le but est d’estimer la fonction de probabilité une journée en avance pour le Morgan Stanley High Technology Index 35 (MSHT) • Cela est fait par l’utilisation d’un réseau de neurones comprenant une partie du Gaussian Mixture Model. • L’architecture neuronale utilise une distribution Gaussienne où le centre de chaque Gaussienne dépend de l’input Xi tandis que les autres paramètres tels que la largeur de la courbe (variance) sont ajustés durant la période d’entraînement du modèle. • « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004 ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle « Gaussian Mixture » Tiré de « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004
Exemple d’application du modèle « Gaussian Mixture » • Voici d’abord un réseau de neurones de type Perceptron à multi couches qui a été utilisé comme outil de comparaison avec le réseau de neurone multi couche avec ajout du Gaussian Mixture Model. ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Voici maintenant l’architecture du réseau de neurone comprenant le Gaussian Mixture Model.
Exemple d’application du modèle « Gaussian Mixture » • Son avantage est qu’il permet de prédire une distribution entière au lieu seulement d’une seule classification à la fois grâce à une combinaison linéaire d’une nombre fixe de distribution normal à différents emplacements. • En prenant en compte que les observations sont indépendantes, la fonction de likelihood est donnée par: • Le but du modèle est de mélanger les distributions Gaussienne de la deuxième couche cachée de neurone pour modéliser la fonction de densité de la distribution yt. La largeur des distributions est déterminée selon le set de data d’entraînement et leur centre de position dépende de l’entrée xi. Pour minimiser la fonction de coût ci-dessus, il faut que la distance entre les centres ut et yt soit minimale ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle « Gaussian Mixture » • Ils utilisent donc l’algorithme EM pour trouver la valeur des poids qui déterminent les centres ut.
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Exemple d’application du modèle « Gaussian Mixture » • Voici donc les résultats obtenus en comparaison avec le réseau de neurone multi-couches à perceptrons. Tiré de « An application of Gaussian Mixture Models to the Morgan Stanley High echnology 35 index » par Andreas Lindemann, Christian L. Dunis et Paulo Lisboa. Avril 2004
Aucune idée de la forme des clusters recherché car on n’a pas de critère prédéterminé, on ne connait même pas son nombre Le cluster peut même avoir une forme non linéaire On ne fait pas d’approximation de départ A généralement besoin d’un training set ou encore d’un feedback de l’utilisateur Rappel de ce qu’est un algorithme non paramétrique ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Les grandes approches auxquelles je vais expliquer une application: • Parzen ou le volume des ensembles est fixe et que son nombre d'échantillons peut varier (Volume idéal des ensembles?) • K-plus proches (inverse de Parzen), donc volume variant mais ou le nombre de point par ensemble est fixe (Nombre idéal d’ensembles?)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Rappel d’un dendrogramme et de la manière de le monter Tiré de « Clustering », Milos Hauskrecht, milos@cs.pitt.edu
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Algorithme plus avancéLes approches démontrés sont le fondement de multiple algorithme, comme par exemple l’apprentissage de la similarité entre matrice • On subdivise avec plusieurs itérations l’espace en plusieurs volumes (tiré de l’approche de Parzen) • On test alors sur chacun des volumes plusieurs techniques de similarité tel que AL et SL. On utilise d’ailleurs ces deux algorithmes pour déterminer la validité de nos clusters • Si certaines données ne semblent par rentrer dans les nombreux clusters simulés, on peut aller jusqu’à les rejeter Tiré de « Learning Pairwise Smilarity for Data Clustering », Anil K. Jain, Michigan State University
Lectures de codes barres et codes 2D ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application avec l’approche de la fenêtre de Parzen:Le code Bar Peut-être pas le meilleur exemple, mais peut être illustratif et est encore utilisé selon le type de code bar. J’ai même trouvé dans les brevets américains un algorithme décodant les codes bars utilisant la méthode de Parzen. Tiré de « United States Patent 5757954 », 26 mai 1998 Tiré de « Data Clustering: A review », A.K. Jain, Michigan State University
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application avec l’approche de la fenêtre de Parzen:Le code Bar Histogramme du code bar vu précédemment selon des fenêtres de Parzen préétabli, on y voit donc l’intensité du nombre de data par fenêtre Tiré de « Data Clustering: A review », A.K. Jain, Michigan State University
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Types de code 2d - Même principe que pour le code bar mais nous devons nous assurer de l’angle auparavant Tiré du « Mil Help », Matrox Imaging Library 8.0 2006
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application hiérarchique en génétique pour la prédiction/détection de chromosomes La difficulté était de définir des caractéristiques ou de l’information sur les liens entre les « clusters », très difficile avec le « flat clustering » Opté pour une approche hiérarchique pour avoir justement certain liens mis en évidence Tiré de « A genetic Approach to Hierarchical Clustering of Euclidean Graphs », Stefano Rizzi, University of Bologna Exemple avec des séparateurs (1=réel séparation et 0= séparation virtuelle)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application hiérarchique en génétique pour la prédiction/détection de chromosomes On extrapole alors les point les plus éloignés pour les nommés cluster (algorithme du Complete Link) On regroupe dans chacun de ces cluster les points avoisinants (approche de K-Nearest) On peut alors réorganiser nos clusters pour en faire ressortir une nouvelle perception 1-Seed 1-Growth → Tiré de « A genetic Approach to Hierarchical Clustering of Euclidean Graphs », Stefano Rizzi, University of Bologna
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application hiérarchique en génétique pour la prédiction/détection de chromosomes On peut alors procéder à du crossover • Peut être généralisé pour avoir le même nombre de séparateur entre les chromosomes • Peut être orienté pour avoir une moyenne égale On a ici 6-3-1 et 4-2 respectivement donc on fait une moyenne de 5 et 2.5 (2 en a et 3 en b) ↓ Tiré de « A genetic Approach to Hierarchical Clustering of Euclidean Graphs », Stefano Rizzi, University of Bologna
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application hiérarchique en génétique pour la prédiction/détection de chromosomes On peut aussi attitrer des probabilités de mutation pour les chromosomes générés par reproduction Tiré de « A genetic Approach to Hierarchical Clustering of Euclidean Graphs », Stefano Rizzi, University of Bologna
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Application hiérarchique en génétique pour la prédiction/détection de chromosomes Et maintenant avec une hiérarchie en moins… pas mal plus clair!! Tiré de « A genetic Approach to Hierarchical Clustering of Euclidean Graphs », Stefano Rizzi, University of Bologna
Traitement d’images: Segmentation ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images • Cameraman.tif • 256 niveaux de gris • Segmentation d'images avec K- means clustering K=2 K=3 K=10
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) • “Mean Shift: A robust Approach Toward Feature Space Analysis”, D. Comaniciu, P. Meer • Méthode non-paramétrique • Estimation de densité par noyaux (kernel) • Espace {x,y,L,u,v} D. Comaniciu, P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis”, IEEE Trans. on Patt. Analysis and MI
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Segmentation d'Images (suite) • Avant tout, un peu de mathématiques... mean shift proportionnel au gradient de l'estimateur de la pdf
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) • Vecteur mean-shift pointe vers un maximum local de la pdf • Vecteurs successifs créént un chemin vers le maximum local de la colline où ils ont été initialisé • Convergence guarantie pour noyau convexe et décroissant D. Comaniciu, P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis”, IEEE Trans. on Patt. Analysis and MI
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) • Application à la segmentation d'images • Algorithme de Filtrage par mean-shift • x i, i=1,...,n données d-dimensionelles (x,y,l,u,v) • z i, i=1,...,n données filtrées • Initialisation j=1, y i,1=x • Pour chaque point x i • calculer y i, j+1 jusqu'à convergence • z i = (coord(x), couleurs(y i, j)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) • Résultats ? filtrage avec préservation des contours ! D. Comaniciu, P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis”, IEEE Trans. on Patt. Analysis and MI
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) • Application à la segmentation: • on regroupe les zi avec distspat < hs et distcouleur < hr D. Comaniciu, P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis”, IEEE Trans. on Patt. Analysis and MI
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséSegmentation d'Images (suite) D. Comaniciu, P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis”, IEEE Trans. on Patt. Analysis and MI
Application biomédicale: Extraction de potentiels d’actions de signaux EEG ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséApplications biomédicales – Analyse EEG • Enregistrements neuronaux par microélectrodes Potentiels d'action • Enregistrements EEG rééls • Problèmes: • Bruit • Combien de neurones? • Seuil de détection impossible M.S. Lewicki, “A review of methods for spike sorting: the detection and classification of neural actionpotentials”, Network: Comput. Neural Syst. 9 (1998)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséApplications biomédicales – Analyse EEG • Extraction de caractéristiques • Pic minimal vs. maximal, Hauteur vs. largeur du pic • Analyse par Composantes Principales M.S. Lewicki, “A review of methods for spike sorting: the detection and classification of neural actionpotentials”, Network: Comput. Neural Syst. 9 (1998)
ELE6302 – Reconnaissance de formes: principes, synthèse et application – Hiver 2005 Apprentissage non-superviséApplications biomédicales – Analyse EEG • Aggrégation de données: k-means / Bayésien • Probabilité d'appartenance qualité d'isolation M.S. Lewicki, “A review of methods for spike sorting: the detection and classification of neural actionpotentials”, Network: Comput. Neural Syst. 9 (1998)