510 likes | 692 Views
La cartographie multivariée avec le logiciel Philcarto Support de cours J-C Raynal raynal@ehess.fr. Sommaire. Rappel introductif sur la définition de l’ACP Comment lire les résultats ? Comment réaliser vos propres ACP ?. L’analyse en composantes principales (ACP).
E N D
La cartographie multivariéeavec le logiciel PhilcartoSupport de coursJ-C Raynalraynal@ehess.fr
Sommaire • Rappel introductif sur la définition de l’ACP • Comment lire les résultats ? • Comment réaliser vos propres ACP ?
L’analyse en composantes principales (ACP)
Sommaire • Types de problèmes pouvant être abordés par l’ACP • Principe de l’ACP • Structure du tableau de données
L’Analyse en Composantes Principales (ACP) est une méthode statistique essentiellement descriptive appartenant à la famille des analyses dites « factorielles ». Mise au point par H. Hotelling en 1933, K. Pearson en 1901 en avait entrevu les grandes lignes. Ce n’est qu’à partir des années 60 que cette méthode a pris de l’ampleur et surtout lorsque la puissance de calcul des ordinateurs est devenu accessible dans les années 80. • L’ACP peut être utilisée pour savoir : • comment se structurent les variables : quelles sont celles qui sont corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ? • et/ou comment se répartissent les individus : quels sont ceux qui se ressemblent ? Quels sont ceux qui sont dissemblables ? • L’ACP, qui est une méthode descriptive, est parfois utilisée en préliminaire à des méthodes statistiques de type « décisionnelles » (régression, réseau de neurones, segmentation...).
Le tableau de données en entrée est constitué, en lignes, par des « individus » (unités géographiques, habitants, etc.) sur lesquels sont mesurées des « variables quantitatives » (en colonnes), c’est-à-dire pour lesquelles il est possible de calculer la moyenne, l’écart-type, etc. Le choix des individus et des variables n’est pas sans importance dans les résultats de l’ACP. Ces choix méritent la plus grande attention. Ils seront guidés en fonction des objectifs des problématiques étudiées. Les individus pourront représenter soit la totalité de la population étudiée, soit un échantillon. Les variables introduites devront permettre de caractériser les phénomènes du mieux que possible.
3 - Les tableaux de rangs 2 - Les tableaux de note Types de tableaux pouvant être traités par l’ACP 1- Les tableaux de mesure
Types de tableaux pouvant être traités par l’ACP Tableau constitué de 83 lignes (Kreïs) et de 5 variables : • -TX_AIND = taux d’actifs dans le secteur secondaire. • TX_ASERV = taux d’actifs dans le secteur tertiaire. • TX_EXPNONM = Part des exploitations agricoles • non-marchandes. • TX_NUITEES = intensité touristique par nombre de nuitées. • EXPL_BIO = exploitations agricoles biologiques dans le total • des exploitations.
la variable est « centrée » autour de la moyenne la variable est ensuite « réduite » Il est fréquent que les tableaux traités contiennent des variables de différentes naturesou qui sont exprimées dans des unités différentes. Pour que les variables soient comparables entre elles et que les résultats de l’ACP ne soient pas influencés par leur ordre de grandeur, il faut procéder à une analyse « normée » ou « centrée réduite » : Chaque variable est maintenant exprimée en termes de dispersion autour de la moyenne, comptée en nombre d’écarts-type. Les variables sont ainsi ramenées à la même échelle pour être comparables. Cette procédure donne plus de poids aux variables les plus dispersées. Remarque : Cette transformation des données est réalisée automatiquement par le logiciel Philcarto.
Principe de l’ACP Le tableau de données correspond à une représentation des individus dans un espace à p dimensions. Etant donné qu’il est impossible de se représenter visuellement le nuage de points des individus dans un tel espace, le but de l’ACP est de trouver des espaces de visualisation de dimensions « plus petites », à savoir des droites (dimension 1) ou encore des plans (dimension 2), tout en conservant le maximum d’information.
Principe de l’ACP C’est le même principe que lorsque l’on prend une photographie, on passe d’un espace à 3 dimensions à un espace à 2 dimensions.
Principe de l’ACP De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ».
Principe de l’ACP De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ».
Principe de l’ACP De fait, l’angle de la prise de vue a une importance capitale car c’est lui qui détermine « l’information exploitable ».
Principe de l’ACP L’ACP est basée sur le même principe. La première droite proposée a pour but de voir au mieux les individus, c’est-à-dire celle pour laquelle la variance des individus est maximale. Cette droite est appelée « 1ère composante principale » ou « 1er axe principal ». Elle permet d’observer une certaine proportion de la variation totale des individus.
Principe de l’ACP • Ensuite, une 2ème composante principale (axe 2) est recherchée en répondant à 2 conditions : • avoir une corrélation linéaire nulle avec la première, c’est-à-dire être totalement indépendante de l’axe 1, • avoir, à son tour, la plus grande variance. Ainsi, la plus grande information complémentaire à l’axe 1 est apportée par l’axe 2. • Le processus est répété autant de fois que de variables. Donc, pour p variables, on obtient p composantes principales. • Techniquement, l’ACP transforme les p variables quantitatives initiales, plus ou moins corrélées entre elles, en p nouvelles variables quantitatives, non corrélées : les composantes principales.
Examen préalable à l’interprétation des résultats Une bonne interprétation d’une ACP passe par un examen préalable des données. Cet examen peut être réalisé à l’aide de logiciels spécialisés dans l’analyse de données. Philcarto fournit un listing de l’ACP contenant des informations très utiles. Aussi, il est conseillé dans un premier temps de lancer une ACP « brute » en se focalisant sur les données élémentaires avant d’interpréter les axes factoriels. 1 - Afin de s’assurer de la qualité des données et de détecter d’éventuelles erreurs, on observe les statistiques élémentaires pour chaque variable (moyenne, écart-type etc.) et on réalise un histogramme de fréquence afin de s’assurer qu’il ait une forme en « cloche ». Cette forme garantit la légitimité de l’interprétation en termes de dispersion autour de la moyenne.
Examen préalable à l’interprétation des résultats L’examen préalable de la représentation des individus sur le plan principal (axes 1 et 2) permet de vérifier l’homogénéité de la population observée. Généralement, trois situations se présentent : Figure 1 : Vous observez des individus isolés du reste de la population. • Cela peut signifier 2 choses : • soit certaines valeurs sont erronées > il faut corriger et refaire l’ACP ; • soit certains individus sont très différents, il vaut mieux les étudier à part > il faut les retirer de l’analyse.
Figure 2 : Plusieurs groupes distincts sont constitués : il s’agit de sous-populations. • Si l’objectif est d’étudier les sous-populations, il faut alors réaliser une ACP pour chacune d’elles. • Si l’objectif est de décrire les individus et de mettre en évidence les caractéristiques de ces groupements > interprétation de l’ACP. Examen préalable à l’interprétation des résultats
Examen préalable à l’interprétation des résultats Figure 3 : Les individus se répartissent sur l’ensemble du plan > interprétation de l’ACP.
Examen préalable à l’interprétation des résultats 2 – Corrélations linéaires Vérifier la corrélation des variables deux à deux, grâce à la table de Bravais-Pearson, puis, dans le cas d’une forte corrélation, enlever de l’analyse l’une des deux variables. Ce travail préalable réalisé, on peut alors relancer l’ACP avec des variables appropriées et validées.
Interprétation des résultats L’ACP propose donc des projections du nuage de points dans des plans de représentation « judicieusement choisis ». La procédure dite de « diagonalisation » permet de choisir le nombre de plans à retenir. Afin d’expliciter à quoi correspondent ces plans, il faut donner un sens à leurs axes en procédant à la caractérisation de ces derniers à l’aide des variables initiales. Ceci se fait par l’étude du cercle des corrélations. Par la suite, on peut discuter de la position et de la proximité des individus dans les plans selon le sens donné aux axes.
Interprétation des résultats 3 – Diagonalisation La diagonalisation permet de calculer les « valeurs propres » qui quantifient les pourcentages de variation expliquée par chaque composante principale (variance des individus sur un axe), ce qui permet d’avoir une idée du nombre de composantes et de graphiques à examiner. Dans l’exemple ci-contre, il semble intéressant d’examiner en priorité les composantes principales 1, 2 et 3 qui totalisent 92,77% de l’information.
Interprétation des résultats 3 – Diagonalisation A la question « combien d’axes faut-il regarder ? » : à vous de juger avec bon sens. Il n’y a pas de règle, il faut tenir compte de la forme dégressive des valeurs propres. 80 % de l’information peut être expliquée de différentes façons avec 3 axes : 80 = 28+26+26 ou 80 = 62+15+3 ou encore 80 = 75+3+2 Ne regarder un axe que si la part de variation qu’il explique est supérieure ou au moins égale à la valeur initiale. Pour une ACP centrée réduite, on ne conserve que les axes dont la valeur propre est supérieure à 0.8. Enfin, une variable étudiée peut n’apparaître « bien représentée* » que sur un axe de rang élevé, il est donc nécessaire de le garder. * cf. §4.1 – Variables « interprétables »
Interprétation des résultats 4 – Interprétation des variables Le « cercle des corrélations » permet de visualiser la structure des variables. Son interprétation sera menée conjointement avec l’examen des résultats du listing ACP. Remarque : Pensez à relier les différents points avec le centre du cercle car, en ACP, l’interprétation des variables se fait à partir leurs directions.
Très bien représentées. Bien représentée. Moyennement représentée. Interprétation des résultats 4 – Interprétation des variables 4.1 – Variables « interprétables » L’analyse ne portera que sur les variables « bien représentées » sur un plan. Il est communément admis qu’une variable bien représentée sur un plan répond aux critères suivants : la variable considérée est très bien représentée. la variable considérée est bien représentée. la variable considérée est moyennement représentée. la variable considérée est médiocrement représentée. Une variable est d’autant mieux représentée sur le plan qu’elle est proche du cercle.
Interprétation des résultats 4.2 – Etude des corrélations entre variables Remarque : Le coefficient de corrélation varie entre -1 et 1. Deux variables sont d'autant plus corrélées que leur coefficient de corrélation est proche de 1 en valeur absolue (TX_AIND & TX_ASERV). Graphiquement, deux variables fortement corrélées ont des directions similaires, deux variables indépendantes ont des directions pratiquement perpendiculaires (TX_NUITEES & TX_EXPNONM). Deux variables dont le coefficient de corrélation est positif varient dans le même sens : quand l'un augmente, l'autre augmente également (TX_NUITEES & EXPL_BIO); si le coefficient de corrélation est négatif, les deux variables s'opposent : quand l'un augmente, l'autre diminue (TX_AIND & TX_ASERV).
Interprétation des résultats 4. 3 – Etude de la corrélation des variables avec les axes Il s’agit d’identifier qu’elles sont les variables les plus liées avec les axes. Les variables les plus liées à l’axe 1 sont les secteurs d’activité (TX_AIND & TX_ASERV). L’axe 1 oppose l’industrie aux services. Les variables les plus liées à l’axe 2 sont les exploitations non-marchandes (TX_EXPNONM) et le nombre de nuitées (TX_NUITEES).
Interprétation des résultats 5 – Interprétation des individus L’examen des coordonnées et la représentation graphique des individus permet de répondre à : Comment se répartissent les individus ? Quels sont ceux qui se ressemblent et en quoi ? Il s’agit de s’intéresser à la proximité ou à l’éloignement entre les individus.
Interprétation des résultats 5.1 – Individus « interprétables » Le graphique des individus est une représentation imparfaite de la réalité dans le sens où les individus sont plus ou moins bien représentés sur le plan. On ne peut parler de proximité d’individus que pour des individus bien représentés. Cette qualité de la représentation est estimée par les valeurs des cosinus carrés. On admet qu’un individu est bien représenté sur un plan si la somme des cosinus carrés sur les axes de ce plan est supérieure à 0.50.
Interprétation des résultats 5.2 – Analyse de la répartition des individus Les individus qui contribuent le plus à la construction des axes sont ceux dont les coordonnées sont les plus éloignées de leurs moyennes. Ils ont les coordonnées en valeurs absolues les plus fortes. La construction des axes peut s’expliquer soit par des individus suspects (il faut alors recommencer, en les éliminant), soit c’est le fruit d’un ensemble homogène et « stable » qui ne sera pas modifié par quelques individus en plus ou en moins.
Interprétation des résultats 5.2 – Analyse de la répartition des individus • Kreïs dont : • TX_AIND est très supérieure à la moyenne • TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne • Kreïs dont : • TX_ASERV est très supérieure à la moyenne • TX_EXPNONM et TX_NUITEES sont très sup. à la moyenne • Kreïs dont : • TX_ASERV est très supérieure à la moyenne • TX_EXPNONM et TX_NUITEES sont très inf. à la moyenne Les individus proches de l’origine sont soit des individus qui ne se démarquent pas de l’individu moyen, soit des individus mal représentés sur le plan 1-2.
Interprétation des résultats 5.3 – Individus supplémentaires Le logiciel Philcarto offre la possibilité de spécifier les individus participant (individus « actifs ») ou non (individus « supplémentaires »)à l’analyse. Pour cela, il faut créer une variable binaire supplémentaire codée 0 pour les individus actifs et 1 pour les individus supplémentaires. Les individus supplémentaires n’interviennent pas dans l’analyse mais peuvent être positionnés par rapport aux individus actifs afin d’amener un complément d’informations. Comme pour les individus actifs, il faut que les individus supplémentaires soient bien représentés sur le plan pour pouvoir être interprétés.
Conseils supplémentaires L’ACP ne peut pas traiter des tableaux comportant des données manquantes. Lorsque l’on a des données manquantes, on doit supprimer lignes (individus) et/ou colonnes (variables) afin d’obtenir un tableau complet. L’ACP ne peut pas traiter des variables qualitatives mais uniquement des variables quantitatives. Il y a toutefois une astuce qui consiste à intégrer un codage des variables qualitatives dans les identifiants des individus.
Conclusion L’ACP est une méthode qui a pour but de rendre plus compréhensible l’ensemble des variables contenues dans un tableau de données. Ne lancer pas d’analyse sans avoir pris soin de sélectionner les variables, supprimer toutes les variables redondantes ou très fortement corrélées. L’ACP est une méthode parmi d’autres, elle révèle simplement ce qui existe dans vos données. Entraînez-vous dans un premier temps avec des données et sur des problématiques que vous connaissez bien afin de bien saisir les possibilités offertes par une telle analyse. ET BON COURAGE !!!
La classification ascendante hiérarchique (CAH)
La classification ascendante hiérarchique Les classifications multivariées sont des techniques qui permettent de répartir en classes un ensemble d’unités statistiques par rapport à plusieurs variables. La classification ascendante hiérarchique permet de mettre en évidence les groupes les plus homogènes (la variance intra-groupe est minimum) et les groupes sont les plus séparés possibles (variance inter-groupe maximum).
La classification ascendante hiérarchique : Principe 4.1 – Principes de la CAH Comme pour l’ACP, le point de départ est un tableau constitué de n individus et p variables. De cette matrice de départ une nouvelle matrice sera constituée afin de définir une distance entre points (distance métrique euclidienne). - Étape 1 : Il s’agit d’agréger les points i et i’ les plus proches (distance minimale). Ce qui constitue un premier groupe, considéré à son tour comme un nouveau point dont les coordonnées proviennent de la moyenne des deux points agrégé. • - Étape 2 : On répète l’opération en recherchant la plus petite distance afin de fabriquer un nouveau groupe ou d’augmenter le premier groupe. • Étape n : Tous les points ont été agrégés. 2 groupes 3 groupes Au final, les n points-individus forment un ensemble dessinant ainsi une arborescence hiérarchique. Une partie seulement de cette arborescence figurera dans le listing d’interprétation fournit par Philcarto. C’est sur cette arborescence que l’on choisit le nombre de classes, ce qui permet de constituer des groupes homogènes. 4 groupes
Carte n° 19 - Types de diversification socio-économique en Allemagne
Bibliographie Groupe Chadule, (1997). Initiation aux pratiques statistiques en géographie. Paris, Armand Colin, Col. U, 192 p. Beguin M., Pumain D., (2000). La représentation des données géographiques. Statistique et cartographie. Paris, Armand Colin, Col. Cursus, 192 p. Fenelon J-P., (1981). Qu’est-ce que l’analyse des données ?Paris, LEFONEN, p. 311. Volle M., (1981). Analyse des données – 2e édition – Economica.
Comment interpréter les résultats ? Moyenne arithmétique : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type est la racine carré de la variance. L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.
Comment interpréter les résultats ? Distance euclidienne : La moyenne d’une série statistique est la somme des valeurs observées, divisée par le nombre d’observations. La variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon ou d'une population. L’écart-type est la racine carré de la variance. L’étendue est la différence entre la valeur maximum observée et la valeur minimum observée.
Exemple d’un individu i proche de l’axe Exemple d’un individu i éloigné de l’axe
La classification ascendante hiérarchique : Interprétation 4.1 – Principes de la CAH tableau sera transformé pour être Construction de l'arbre hiérarchique ascendant en entier Recherche de la meilleure coupure de l'arbre A utiliser quand le nombre d'individus n'est pas très élevé