400 likes | 520 Views
RECONNAISSANCE DE FORMES. IAR-6002. Sélection et/ou extraction des caractéristiques. Introduction Critères d’évaluation de caractéristiques Sélection des caractéristiques Extraction des caractéristiques. Introduction.
E N D
RECONNAISSANCE DE FORMES IAR-6002
Sélection et/ou extraction des caractéristiques • Introduction • Critères d’évaluation de caractéristiques • Sélection des caractéristiques • Extraction des caractéristiques
Introduction • Le but recherché par la sélection et l’extraction des caractéristiques est de diminuer le plus pos-sible le nombre de caractéristiques utilisées pour représenter les formes à classifier • De plus, nous pouvons alors estimer le pouvoir discriminant des caractérisques permettant la différenciation d’objets de classes distinctes
Introduction • Nous pouvons réduire le nombre de caractéris-tiques requises de deux façons: • Une approche consiste à trouver les d caractéris-tiques parmi les D possibles qui discriminent le mieux les formes à classer
Introduction • Une seconde approche consiste à projeter l’en-semble des caractéristiques originales dans un autre espace de caractéristiques de dimension inférieure (extraction de caractéristiques)
Introduction • Pour résoudre le problème de sélection ou d’extraction de caractéristiques nous devons spécifier: • Les critères d’évaluation des caractéristiques • La dimension des espaces de caractéristiques • La procédure de recherche optimale • Le type de transformation (extraction)
Introduction • Nous utilisons les notations suivantes: • Caractéristiques originales yk, k = 1,2,....,D y = [y1,y2,...,yD]T • Chaque observation (objets, formes) y appartient à une des m classes possibles Ci, i= 1,2,....,m • Nous savons que l’occurrence des vecteurs y est modélisée par un processus aléatoire représenté par la probabilité conditionnelle p(y|Ci) et la probabilité à priori P(Ci)
Introduction • Nous utilisons les notations suivantes: • Un ensemble contient les caractéristiques candidates j, j=1,2,...,d • Les caractéristiques optimales sont dénotées par X={xj|j=1,...,d} et découle du calcul d’un critère d’évaluation J() • Pour la sélection, nous cherchons: J(X) = maxJ() qui représente les caractéristiques qui maximise le critère de sélection
Introduction • Nous utilisons les notations suivantes: • Pour l’extraction, nous cherchons: J(A) = maxAJ(A) où A est un extracteur optimal • Avec A connu nous pouvons déduire x par: x = A(y)
Critères d’évaluation de caractéristiques • Basé sur la probabilité d’erreur • Dans un espace de caractéristiques de dimension d définit par un ensemble de caractéristiques = [1,...,d] la probabilité d’erreur est donnée par Pdf mixte de Pdf à posteriori
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • Le concept de distance probabiliste fait référence à la distance entre 2 pdf et est aussi fonction du degré de chevauchement des 2 pdf • J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent • J est maximum quand il n’y a pas de chevauchement
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • Les principales distances probabilistes sont: • Bhattacharyya et Patrick-Fisher
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • Les principales distances probabilistes dans leurs formes moyenne sont: • Bhattacharyya et Patrick-Fisher
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • Si nous supposons que les pdf conditionnelles sont normales alors
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • La distance de Batthacharyya devient
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • La distance de Mahalanobis est donnée par
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances probabilistes • Un critère d’évaluation dans le cas multi-classe peut être déduit par une moyenne pondérée des distances entre 2 classes ij Jij() de la forme
Critères d’évaluation de caractéristiques • Basé sur des mesures de dépendances probabi-listes • La dépendance des variables aléatoires et Ci est incorporée dans la pdf conditionnelle p(|Ci), pour i=1,...,m • Si et Ci sont indépendants alors p(|Ci) = p(), ce qui veut dire que la iieme pdf conditionnelle est identique à la pdf mixte • Dans ces circonstances, une observation sera difficile à classer
Critères d’évaluation de caractéristiques • Basé sur des mesures de dépendances probabi-listes • Le degré de dépendance entre les variables et Ci peut alors être donné par une distance entre la pdf conditionnelle p(|Ci) et la pdf mixte p() • Mesure de dépendance probabiliste (Patrick-Fisher)
Critères d’évaluation de caractéristiques • Basé sur des mesures d’entropie • Le degré de dépendance entre les variables et Ci peut aussi être donné par des mesures d’entro-pie • L’entropie mesure le degré d’incertitude. Lors-que le gain d’information est faible l’incertitude est maximale. Si nous avons une observation et que nous calculons P(Ci |) pour i=1,...,m, et que P(Ci |) est équiprobable, l’incertitude est dans ce cas maximale
Critères d’évaluation de caractéristiques • Basé sur des mesures d’entropie • Mesure d’entropie (Distance Bayesienne)
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances inter-classe • Si nous avons un ensemble d’observations repré-sentatives de chacune de nos classes et que nous supposons que les observations associées à chaque classe occupe une région distincte dans l’espace des observations • La distance moyenne entre les paires d’observa-tions d’entraînement devient alors une mesure de discrimination des classes
Critères d’évaluation de caractéristiques • Basé sur des mesures de distances inter-classe • Une métrique (ik,jl) permet de mesurer la distance entre l’observation k de la iième classe et l’observation l de la jième classe • La distance moyenne est donnée par
Sélection des caractéristiques • Basé sur le mérite individuel • Si nous avons un ensemble de caractéristiques yj pour j=1,...,D, à partir d’un sous-ensemble de caractéristiques de cardinalité d nous cher-chons le vecteur de caractéristiques optimal X • Pour trouver ce vecteur X il faut alors considérer D!/(D-d)!d! combinaisons de vecteurs de carac-térisques ce qui est excessif
Sélection des caractéristiques • Basé sur le mérite individuel • Si nous avons m=2 (2 classes) avec des pdf conditionnelles p(|Ci) distribuées de façon normale avec 1=2 sur la diagonale (les mesures sont indépendantes) la distance de Mahalanobis s’exprime alors par
Sélection des caractéristiques • Basé sur le mérite individuel • La contribution de chaque mesure pour la discri-mination des classes est indépendantes des autres mesures • Nous pouvons alors sélectionner les d meilleures caractéristiques en sélectionnant les d meilleures mesures individuelles
Sélection des caractéristiques • Basé sur le mérite individuel • Procédure • Calculer JM(yj), pour j=1,2...,D et les classer selon un ordre décroissant JM(y1) > JM(y2) > .... > JM(yD) • Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d}
Sélection des caractéristiques • Basé sur une sélection séquentielle avant SFS et arrière SBS • La méthode SFS est buttom-up. Partant d’un ensemble vide nous sélectionnons comme pre-mière caractéristique celle qui discrimine le mieux nos classes • À chaque itération, nous choisissons une caractéristique qui jumelée à celle trouvées aux étapes précédentes permet une discrimination maximale des classes
Sélection des caractéristiques • Basé sur une sélection séquentielle avant SFS et arrière SBS • L’algorithme SFS • Initialisation X0 = • Si nous avons sélectionné k caractéristiques de l’ensem-ble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques Xk. • La (k+1)ième caractéristique est alors choisie à partir de l’ensemble des mesures disponibles Y - Xk tel que J(Xk+1) = max J(Xk yj), yj Y - Xk.
Sélection des caractéristiques • Basé sur une sélection séquentielle avant SFS et arrière SBS • La méthode SBS est top-down. Partant de l’en-semble des mesures Y nous éliminons alors une mesure à la fois • À chaque itération, nous éliminons une caracté-ristique qui diminue peu le critère J(). Ce qui veut dire que cette caractéristique contribue fai-blement à la discrimination des classes
Sélection des caractéristiques • Basé sur une sélection séquentielle avant SFS et arrière SBS • L’algorithme SBS • Initialisation XD = Y • Si nous avons éliminé k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques XD-k. • La (k+1)ième caractéristique à éliminer est alors choisie à partir de l’ensemble des mesures disponibles XD-k tel que J(XD-k-1) = max J(XD-k- yj), yj XD-k.
Sélection des caractéristiques • Basé sur une sélection séquentielle avant SFS et arrière SBS • L’algorithme SFS est sous optimal • Aucun mécanisme ne permet d’éliminer une caractéris-tique qui devient superflue après l’inclusion d’autres ca-ractéristiques • De même, l’algorithme SBS est aussi sous optimal • Aucun mécanisme ne permet de rajouter une caractéris-tique éliminer
Sélection des caractéristiques • Basé sur l’algorithme Plus l-Take Away r • Nous pouvons réduire les problèmes de sous optimalité dénoté dans les méthodes SFS et SBS par un processus d’alternance d’ajout et de retrait de caractéristiques • Après avoir ajouté l caractéristiques à l’ensemble des caractéristiques courante, r caractéristiques sont alors retirée • La dimension de l’ensemble des caractéristiques change alors de l-r
Sélection des caractéristiques • Basé sur l’algorithme Plus l-Take Away r • Ce processus continu jusqu’à ce que la dimen-sion requise soit atteinte • Si l > r la sélection progresse de façon BUTTOM-UP et TOP-DOWN si l < r
Sélection des caractéristiques • Basé sur l’algorithme Plus l-Take Away r • L’algorithme Plus l-Take Away r (l > r) • Si nous avons Xk l’ensemble des caractéristiques actuelles • Appliquer SFS l fois pour générer un ensemble Xk+l • Appliquer SBS r fois pour générer un ensemble Xk+l-r • Continuer TANT QUE k + l - r != d
Sélection des caractéristiques • Basé sur l’algorithme Plus l-Take Away r • L’algorithme Plus l-Take Away r (l < r) • Si nous avons Xk l’ensemble des caractéristiques actuelles • Appliquer SBS r fois pour générer un ensemble Xk-r • Appliquer SFS l fois pour générer un ensemble Xk-r+l • Continuer TANT QUE k - r + l != d • Cas particulier • (l,r)=(l,0) => algorithme SFS • (0,r) => algorithme SBS
Sélection des caractéristiques • Basé sur l’algorithme MIN-MAX • La sélection est basée sur le mérite des caractéristi-ques prises individuellement ou par paire • Supposons que nous avons déjà sélectionné k carac-téristiques, nous pouvons alors évaluer le mérite de l’ensemble de caractéristiques restantes Y-Xk en déterminant la quantité d’information nouvelle quelles ajoutent si elles sont ajoutées à l’ensemble des caractéristiques
Sélection des caractéristiques • Basé sur l’algorithme MIN-MAX • La quantité d’information nouvelle ajoutée de l’ajout d’une caractéristique yj Y - Xk à une autre xl Xk est donnée par:
Sélection des caractéristiques • Basé sur l’algorithme MIN-MAX • Nous cherchons alors une caractéristique yj dont l’ajout d’information est grand pour toutes les caractéristiques Xk • Nous cherchons yj qui maximise pour tout les j le minimum de J(yj,xl) pour tout les l
Sélection des caractéristiques • Basé sur l’algorithme MIN-MAX • Algorithme MIN-MAX • Si xk est l’ensemble des caractéristiques courantes. Nous cherchons la caractéristique Xk+1 = yjY - Xkqui satisfait