460 likes | 529 Views
L’ A nalyse en C omposantes P rincipales: A.C.P. ou carte perceptuelle ou mapping.
E N D
L’Analyse en Composantes Principales: A.C.P. ou carte perceptuelle ou mapping.
Réaliser une analyse en composantes principales c’est représenter dans un espace de dimension faible par exemple 2 une information dont on dispose dans un espace de dimension élevée n ou p avec l’objectif de restituer dans cette opération une quantité d’information maximalepar rapport à l’information disponible dans le fichier de base.
Tableau1 Tableau2 Par exemple, du fichier disponible ( tableau 1), on déduira les coordonnées des individus dans un espace de dimension deux (tableau 2) Quantité d’information?
9 7 4 10 1 8 2 5 3 6 Tableau2 Graphe 1 Quantité d’information restituée?
Axe 2 Axe 2 9 Axe 1 7 4 10 1 8 2 5 3 Axe 3 6 4 3 9 5 2 6 1 1 10 Axe 1 8 7 Axe 2 Peut-on améliorer l’image?
Axe 2 Axe 2 4 3 5 9 6 2 9 10 1 Axe 3 Axe 1 8 7 4 7 10 1 8 2 5 3 Axe 3 6 4 Axe 2 3 9 5 2 6 1 10 Axe 1 8 7 6
. 3 . 2 . 4 . 1 . 9 . 5 . 10 . 6 . 8 . 7 Axe 3 Axe 2 Axe 1
11. Du tableau de base on déduit l’un des deux nuages possibles, individus ou variables. 12. On détermine ensuite l’inertie I, c’est-à-dire la dispersion du nuage par rapport à son centre de gravité. 1. Le schéma de travail:
13. Réaliser une A.C.P. c’est déterminer un espace de dimension faible dans lequel le nuage choisi sera projeté orthogonalement. . M’1 . M’i . M’1 . M’i . M’n Ceci constitue un nouveau nuage de points pour lequel on détermine l’inertie I’. On compare I’ avec I. Si le ratio est bon, on peut conserver l’image.
Espace de dimension élevée dans lequel les individus sont Fichier de base: Analyse et retour sur représentés par des individus i de poids étude. axe points Mi. respectifs mi factoriel 1 Inertie I Inertie I' A. C.P réalisée de telle sorte que le ratio I'/I soit le plus élevé possible.
2. L’inertie La forme mathématique de l’inertie est la suivante: Lorsque les variables sont centrées, c’est-à-dire lorsqu’à chaque valeur on a enlevé la valeur moyenne, l’inertie est égale à la somme des variances des variables que l’on soumet à l’analyse. A ce titre l’inertie est une généralisation de la notion de variance. Lorsque les points représentant les individus sont proches du centre de gravité, l’inertie est faible. Lorsque l’inertie est faible, les points sont proches du centre de gravité et il n’y a pas lieu de stratifier.
Lorsque les variables sont centrées et réduites, c’est-à-dire lorsque on a divisé chacune des valeurs centrées par l’écart type, l’inertie est égale au nombre de variables que l’on soumet à l’étude soit p.
3. Matrice d’inertie La réalisation d’une ACP est construite sur les qualités d’une matrice qui porte le nom de matrice d’inertie. Celle-ci est définie de la manière suivante: Chaque produit s’exprime par la relation: et la matrice d’inertie par la relation:
31. Nous constatons que la trace de cette matrice, c’est-à-dire la somme de ses éléments diagonaux est égale à l’inertie de système. Ainsi, avons-nous la possibilité de caractériser la dispersion du nuage par les valeurs propres d’une matrice. En effet la trace est un invariant égal à la somme des valeurs propres. Parce que l’inertie est identifiée aux valeurs propres d’une matrice, il est normal de sélectionner les plus importantes pour conserver au mieux l’information. Rangeons celles-ci par ordre décroissant et sélectionnons les plus fortes. Le taux de restitution de l’information dans un plan est donné par:
32. Lorsque l’analyste juge que ce taux est correct, il peut représenter son nuage en dimension 2. Le plan de projection est engendré par deux vecteurs propres associés aux deux plus grandes valeurs propres. Soit à résoudre les équations: j variant de 1 à 2 • On se posera la question du type de repère: • orthonormé; • orthogonal; • normé; • quelconque
33. Les diverses projections • Lorsque le plan est défini, il reste à donner les divers coordonnées. Pour cela, on utilise les relations: • abscisse • ordonnée et chaque individu sera représenté dans le plan par le point de coordonnées:
Quelques éléments supplémentaires. • Que faire des valeurs manquantes ou des non réponses? • Il est fréquent de constater que certains fichiers sont incomplets: information non disponibles, non réponses, fichier non actualisé…Pour compenser le manque d’information, on peut choisir entre plusieurs options: insérer une valeur neutre, recomposer l’information, supprimer toute la ligne ou la colonne correspondante.
2. Donner un sens aux axes Il est possible d’étudier la corrélation entre les axes et les diverses variables qui participent à l’analyse. Une corrélation forte donne à la variable considérée un pouvoir explicatif fort. 3. Utilisation d’un marqueur Il s’agit d’individus qui ne participent pas à l’analyse; mais qui seront représentés. Ils sont connus pour leurs qualités.
4. Projections des variables Le nuage des individus et le nuage des variables sont deux représentations différentes d’un même tableau. Ainsi, des relations très fortes lient ces deux nuages. Les relations de transition, c’est-à-dire les relations de passage d’un nuage projeté à l’autre sont données ci-après:
4. Exemple • On interroge des chefs de service sur les qualités: • X1: technicité; • X2: polyvalence; • X3: créativité • que possèdent ou non leurs collaborateurs. Les réponses sont données sur une échelle de valeurs comprises entre 0 et 4. Les résultats sont présentés dans le tableau suivant:
Si à chaque individu on accorde le même poids égal à 1/14, l’inertie est égale à: Par exemple dans ce calcul, la variance de la première variable est égale à 8 / 14, alors que la variable numéro deux a une variance égale à 32 / 14 et que la variable numéro trois à une variance égale à 4. C’est ce nombre qu’il faut essayer de restituer.
Lorsque l’on sélectionne ACP dans un logiciel, on demande de sélectionner le meilleur plan de projection. Celui-ci est dirigé par 2 vecteurs appelés vecteurs propres de la matrice d’inertie associés aux deux plus grandes valeurs propres de la même matrice. ( Il faut noter que dans l’opération, on a réussi à identifier la quantité d’information aux valeurs propres d’une matrice). La matrice d’inertie est donc la matrice de référence de l’Analyse en Composantes Principales. Lorsque les valeurs sont centrées, la matrice d’inertie est la matrice des variances/covariances; Lorsque les valeurs sont centrées et réduites, la matrice est la matrice des corrélations. La somme des éléments diagonaux de cette matrice est égale à l’inertie.
Dans notre exemple, cette matrice est égale à: Les valeurs propres s’obtiennent par différentes méthodes. Ici, elles sont égales à: On note que
Le taux de restitution de l’information est égal à: Cela signifie que l’image de dimension deux que l’on va voir représente bien le nuage de points. Si le taux de restitution est insuffisant, on ajoute un axe ou on réduit le nombre de variables que l’on soumet à l ’analyse. Nous comprenons mieux la nécessité d’étudier les diverses corrélations entre les variables.
Polyvalence et technicité Axe 2: 35,9 % 13 1 12 9 Axe 1: 58,3 % 14 4 7 11 6 8 Créativité 5 3 2 10
Excellent collaborateur: référence Axe 2 15 13 1 12 9 Axe 1 14 4 7 11 6 8 5 3 2 10
Pour donner un sens aux deux axes, on peut utiliser la corrélation:
E 1. On donne le tableau suivant représentant les notations réalisées ( sur des échelles de valeurs de 0 à 7) par des acheteurs de 15 voitures de toutes marques et de tous types à propos de 3 variables : confort, ligne, puissance. Sachant que chaque individu interrogé a un poids égal à 1/15 réaliser l’analyse en composantes principales d’ordre 2 du nuage des individus.
La matrice des variances / covariances est données ci-après La matrice des corrélations des variables et des axes factoriels est donnée ci-après
E2. Étude de la comparaison de pays d’un point de vue économique (statistiques anciennes; mais intéressantes). Les 18 variables prises en compte sont: X1: La population totale en milliers d’habitants; X2: La densité au km²; X3: Le taux d’accroissement total de la population; X4: % d’actifs dans l’agriculture, la sylviculture et la pêche; X5: % d’actifs dans l’industrie; X6: Produit National Brut en dollars par habitant; X7: % du P.I.B. en agriculture; X8: Formation brute du capital fixe en % du P.N.B.; X9: Recettes courantes en % du P.N.B.
X10: Réserves officielles (en millions de dollars); X11: Le taux d’escompte officiel; X12: Importations marchandises totales (en millions de dollars); X13: Exportations marchandises totales ( en millions de dollars); X14: Calories par habitant et par jour; X15: Nombre de logements achevés pour 1000 habitants; X16: consommation d’électricité en kwh par habitant et par an; X17: Dépenses publiques d’éducation en % du P.N.B.; X18: Nombre de T.V. pour 1000 habitants.
Réaliser une ACP du nuage des individus en utilisant deux axes. Définir, à partir de l’A.C.P., une typologie pour laquelle on étudiera l’homogénéité des groupes.
Sélectionner les variables dans la fenêtre de gauche et valider votre choix par la flèche centrale Sélectionner maintenant chaque fonction pour définir les paramètres de l’ACP
Espérance et variance de chaque variable Matrice des corrélations Tests de validité de l’ACP
Méthode d’extraction Graphique des valeurs propres ACP normée ou non normée Sélection des facteurs : valeur propre supérieure à 1 ou nombre de facteurs
Enregistrement des coordonnées des individus sur les axes factoriels. On utilisera ces coordonnées pour représenter graphiquement les individus