580 likes | 745 Views
Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3). Cours de traitement statistique « Analyses descriptives multidimensionnelles » Hélène BIGOT Année universitaire 2008-2009. Présentation .
E N D
Université Marc Bloch Master de démographieStrasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles » Hélène BIGOT Année universitaire 2008-2009
Présentation • Si n individus et seulement 2 variables X et Y, il est facile de représenter l’ensemble des données sur un graphique plan : chaque individu i est un point de coordonnées Xi et Yj nuage • L’allure du nuage renseigne sur l’intensité et la nature de la relation entre X et Y. • Si plus de 3 variables, il faut trouver de « bonnes » approximations du nuage pour l’appréhender dans sa globalité.
Analyses exploratoires de données Définition : statistiques descriptives multidimensionnelles (beaucoup de dimensions) Objectif : extraire l’information principale d’un tableau à double entrée, y compris quand il est très grand Méthode : consentir une perte … d’information pour gagner … en efficacité
Deux grands types de méthodes Tableau de donnéesà double entrée(n individus *p variables) Analyses factorielles (nuages et axes factoriels) Classifications (agrégations et classes)
Analyse factorielle • Etude de la position d’un nuage de points dans l’espace et description de sa forme • Pour mieux voir : • se placer au milieu du nuage, c’est-à-dire déplacer l’origine au centre de gravité(= individu fictif « moyen ») • regarder dans les directions d’allongement principal, c’est-à-dire changer d’axes • Techniquement, changer de repère( diagonaliser une matrice)
Analyses factorielles • Un tronc commun : Analyse des proximités au sein d’un nuage de points « pesants »selon une distance à déterminer • Plusieurs analyses différentes selon la distance choisie : • Composantes principales (ACP) • Correspondances simples (AFC) • Correspondances multiples (ACM) • …
Rappels sur les distances i × <———— D(i,j) ————> ×j • En géométrie : Distance euclidienne classique D2(i,j) = (Xi – Xj)2 + (Yi – Yj)2 (distance du double décimètre) • En statistique : • p variables quantitatives • n individus, points d’un espace de dimension p • mesure des distances entre couples d’individus • la distance euclidienne classique ne convient pas on pondère
Forme générale d’une distance euclidienne D2(i,j)= Mab (Xia – Xja) (Xib – Xjb) avec Xia = valeur de la variable a pour l’individu i et Mab= coefficient de pondération de l’interaction des variables a et b On peut lui associer une métrique, càdune matrice carrée à p lignes et p colonnescontenant les coefficients Mab.
Distances non euclidiennes • Exemples : • Écart moyen D(i,j) = ( | Xia – Xja | ) / p • City block D(i,j) = | Xia – Xja | • Saut maximum D(i,j) = max | Xia – Xja | • Saut minimum D(i,j) = min | Xia – Xja | • On ne peut pas leur associer de métriques(matrices carrées)
Notion d’inertie • Mesure de la résistance d’un corps à un mouvement • Mesure du volume occupé par un corps • Inertie du point i de masse mipar rapport au point O :λO(i(mi)) = mi D2(i,O)
Inertie d’un nuage de points • Nuage E = un ensemble fini de points • Chaque point i est de masse mi • Inertie du nuage E par rapport au point O : λO(E) = λO(ik(mik)) = mik D2(ik,O) • Inertie = dispersion = allongement = variance
Inertie et droites orthogonales i2 x i(mi) O i1 • λO(i(mi)) = λO(i1(mi)) + λO(i2(mi)) (formule de Pythagore) • λO(ik(mi)) / λO(i(mi)) : taux d’inertie de i conservé par sa projection en ik sur Δk • Si ce taux est fort, alors i et ik sont proches, et l’on perd peu d’information en assimilant i à ik.
Principes d’une analyse factorielle • n individus sont décrits par p variables tableau de données à double entrée • On a choisi une distance pour mesurer les distances entre les points du nuage. • On cherche la meilleure « image approchée » du nuage en projection sur une droite Δ. • C’est celle qui respecte au mieux les distances entre tous les couples de points
Composantes principales (ACP) • n individus décrits par p variables quantitatives • Tableau Xnxp= (xij) des données brutes • xij = valeur de la variable j pour l’individu i • Distance euclidienne canonique • On cherche la meilleure « image approchée » du nuage en projection sur une droite Δ ; c’est celle qui respecte au mieux les distances entre tous les couples de points : le 1er axe factoriel F1. • Puis on cherche orthogonalement la 2ème ….
ACP : objectifs • Faire le bilan des ressemblances entre individuset des liaisons entre variables • Rechercher un nombre limité de « variables » fictives appelées « composantes principales », non corrélées entre elles et résumant le mieux possible l’information contenu dans le tableau des données brutes
ACP : principes de la méthode • Information à appréhender : inertie du nuage de dimension p (= dispersion totale) • Moyen de résumer : se placer au centre du nuage, puis définir un sous-espace de petite dimension sur lequel le nuage centré est projeté (= approximation du nuage non projeté) diagonalisation de la matrice des covariances • Critère de choix du sous-espace (Pearson, 1901) : maximiser l’inertie du nuage projeté
ACP : données centrées • Pour se placer au centre G du nuage E, on retire à chaque variable sa moyenne. • On passe au tableau Xc des données centrées : Xc = (yij) avec yij = xij – xj • Chaque individu a un poids mi • La droite solution Δ est celle qui maximise l’inertie du nuage centré projeté sur elle : max { mi D2Δ (i,G) }
ACP : nuages des p variables • Un axe factoriel Fk est une variable artificielle,combinaison linéaire des p variables initiales • Le nuage n’est pas centré sur l’origine. • Si la plupart des variables sont bien corrélées entre elles (ie presque toutes les corrélations sont proches de 1 ou de -1),alors il y a un facteur « taille »,(souvent sur le premier axe factoriel).
ACP : cercle des corrélations • Sur un plan factoriel, c’est le grand cercle de rayon 1 centré sur l’origine. • Les points-variables tombent tous à l’intérieur. • Les points-variables situés près du cercle des corrélations sont bien expliqués par le plan factoriel correspondant. • Deux variables indépendantes forment un angle droit avec l’origine.
ACP : perte et taux d’inertie • Les axes factoriels sont ordonnés : du plus informatif au moins informatif. • Chacun représente une part λk de l’inertie totale. • Si l’on ne retient que les premiers axes, on perd de l’inertie : celle des derniers axes. • On repère dans la décroissance des taux d’inertie (sur l’histogramme des valeurs propres), la plus grande rupture et on ne retient que les axes situés avant elle.
ACP :variables expliquant un axe • Les corrélations entre un axe factoriel et les variables initiales renseignent sur la signification de l’axe. • Pour chaque axe, on retient les variables actives présentant les plus fortes corrélations en valeur absolue avec lui. Ce sont elles qui expliquent cet axe.
ACP : nuage des individus • Il est centré sur le centre de gravité. • Pour chaque axe, on repère les individus ayant les contributions à l’inertie les plus fortes. Leurs coordonnées (positives ou négatives) sur cet axe permettent de les situer. • Même si sa contribution à l’inertie est faible, un individu dont le cosinus carré avec un axe est proche de 1, est bien représenté sur cet axe.
ACP : qualité de la représentation • Globalement, elle dépend du taux d’inertie cumulé sur les premiers axes factoriels retenus. • Sur un axe donné, la corrélation de chaque variable indique si elle est bien liée à cet axe. • Sur un axe donné, le cosinus carré de chaque individu indique s’il est bien représenté sur cet axe.
ACP normée • Pour que toutes les variables jouent le même rôle dans le calcul des distances entre individus • Pour que les distances entre individus soient indépendantes des unités de mesure des variables • On centre et on réduit des données : Xr = (zij) avec zij = (xij – xj) / sj • On mesure un écart à la moyenne (xj) de la variable j en nombre d’écart-type de cette variable (sj). • Tous les variables centrées sont comparables ; elles ont la même dispersion (égale à 1).
Correspondances simples (AFC) • Une méthode factorielle : • plus riche, plus informative que l’ACP, • si le tableau rectangulaire analysé a la particularité d’être un « tableau de contingence » ou tableau croisé. • On analyse les deux tableaux de profils. • La distance est celle du χ2 (« chi-deux »).
AFC : deux variables qualitatives • Deux variables qualitatives V1 et V2 mesurées sur n individus. • V1 J modalités : A1, …, Aj, …, AJelles forment les J lignes du tableau croisé • V2 K modalités : B1, …, Bk, …, BKelles forment les K colonnes du tableau croisé • njk = nombre d’individus (parmi les n)prenant simultanémentAj et Bk • n = njk
AFC : tableau de contingence • Tableau N à J lignes et K colonnes contenant les effectifs njk • Ligne marginale = ligne supplémentaire contenant la somme des effectifs de chaque colonne : n.1 n.2 n.3 … n.K • Colonne marginale =colonne supplémentaire contenant la somme des effectifs de chaque ligne : n1. n2. n3. … nJ.
Exemple de tableau de contingence • Enquête auprès de 200 étudiantsvar. 1 : baccalauréat (A à H)var. 2 : université (U1, U2 ou U3) • Construire un tel tableau N avec ses ligne et colonne marginales • Comment apprécier la dépendance entre ces deux variables qualitatives ?
AFC : profils-lignes • Pour comparer plus facilement les lignes entre elles ou à la ligne marginale • Division de chaque ligne par sa somme (figurant en colonne marginale) • Tableau contenant les njk / nj.(si exprimés en % : « pourcentages en ligne ») • njk / nj. = fk|j = fréquence conditionnelle de Bk sachant Aj
AFC : profils-colonnes • Pour comparer plus facilement les colonnes entre elles ou à la colonne marginale • Division de chaque colonne par sa somme (figurant en ligne marginale) • Tableau contenant les njk / n.k(si exprimés en % : « pourcentages en colonne ») • njk / n.k= fj|k = fréquence conditionnelle de Aj sachant Bk
Indépendance de 2 variables qualitatives • Tous les profils-lignes sont égaux au profil-ligne marginal. • Tous les profils-colonnes sont égaux au profil-colonne marginal. • Effectifs théoriques du tableau théorique N* de la situation d’indépendance : n*jk = nj.x n.k / n
Ecart à l’indépendance • Pour chaque case du tableau : • Écart simple : ejk = njk – n*jk • Écart du « chi-deux » : e2jk / n*jk • Pour l’ensemble du tableau : χ2 = e2jk / n*jk • χ2 = 0 si et seulement si tout njk = n*jk • Plus χ2 est grand, plus il y dépendance entre les variables 1 et 2.
Distance entre profils • En utilisant la distance euclidienne classique, on tient compte d’un écart indépendamment de l’importance de la modalité concernée, donc au bénéfice des modalités nombreuses. • Pour éviter cela, on pondère chaque modalité par l’inverse de son importance sur l’ensemble des individus.
Distance du « chi-deux » • Chaque profil-ligne j est pondéré par : nj. / n • Chaque profil-colonne k est pondéré par : n.k / n • Si on regroupe deux lignes ou deux colonnes ayant même profil, la distance du « chi-deux » n’est pas modifiée.
AFC : procédure A partir d’un tableau de contingence : • On fait une ACP des profils-lignes pondérés chacun par nj. / n et avec la distance du « chi-deux ». • On fait une ACP des profils-colonnes pondérés chacun par nj. / n et avec la distance du « chi-deux ». • On étudie les liens entre les deux analyses.
AFC : analyses des 2 nuages • Chacun des 2 nuages est centré sur le centre de gravité. • On peut superposer les graphiques des 2 nuages (compromis entre les 2 représentations possibles). • Les contributions permettent d’apprécier la proximité entre les points et les axes. • S’intéresser surtout aux points ayant une forte contribution relative.
AFC : proximités entre modalités • Deux modalités de la même variable sont proches, si leurs profils sont similaires. • Deux modalités de variables différentes sont proches, si leurs individus respectifs ont des centres de gravité proches.
Eléments supplémentaires • Supplémentaire = inactif =n’ayant pas participé à la détermination des axes factoriels du nuage • Replacé a posteriori dans l’espace • Permet d’éclairer certains aspects de l’analyse
Correspondances multiples (ACM) • Généralisation de l’AFC à plus de deux variables qualitatives • Tableau de BURT = généralisation du tableau de contingence
ACM : propriétés • A un coefficient près, une modalité est le centre de gravité des individus qui la prennent. • Les modalités d’une même variable forment un sous-nuage, dont le centre de gravité est l’origine. • Les taux d’inertie ne peuvent être que faibles. • La part d’inertie due à une modalité est d’autant plus grande que son effectif est faible ! • La part d’inertie due à une variable est d’autant plus grand que le nombre de modalités est grand !
ACM : valeurs-test sur un axe • Pour repérer les positions significatives des modalités sur chaque axe
Classifications : objectif • Un ensemble E de n individus décrits par p variables • Le tableau de données est supposé homogène en contenu et en texture • Repérer des groupes d’individus au sein de E, groupes aussi homogènes que possible du point de vue des valeurs des variables à l’intérieur de chacun des groupes
Classifications : 2 types de méthode • Méthodes ascendantesau départ, il y a autant de groupes que d’individus : n ; puis on agglomère les 2 plus proches en un seul, et on recommence jusqu’à n’avoir plus qu’un seul très grand groupe • Méthodes descendanteson procède par séparations successives de l’ensemble E
Classifications et mesures • Une fois le type de méthode défini (ascendante ou descendante), tout repose sur la mesure retenue pour apprécier la ressemblance entre 2 individus. • C’est en général une distance (définie positive, symétrique et inégalité triangulaire). • Cela peut être simplement une dissimilarité (inégalité triangulaire non respectée) • Si c’est une similarité, on peut se ramener au cas d’une dissimilarité.
Quelques distances entre individus • Distance euclidienne canonique • Distance entre données centrées réduites • Distance du « city block »(somme des écarts en valeurs absolues) • …
Distances entre 2 groupes • Saut minimal (ou lien simple)plus petite distance existant entre 2 individus dont un dans chacun des 2 groupes • Saut maximal (ou lien complet) plus grande distance existant entre 2 individus dont un dans chacun des 2 groupes • Distance moyennemoyenne des distances entre 2 individusdont un dans chacun des 2 groupes
Algorithme de la CAH (classification ascendante hiérarchique) • Étape 1 n éléments à classer agrégation des 2 les plus proches ; calcul des distances entre ce nouvel élément et les (n-2) autres • Étape 2 il reste (n-1) éléments à classer agrégation des 2 les plus proches ; calcul des distances entre ce nouvel élément et les (n-3) autres • … • Étape finale il n’y a plus qu’un seul élément
Dendrogramme d’une CAH • Du mot grec « dendros » = arbre • En abscisse, les éléments initiaux à regrouper • En ordonnée, les distances correspondant aux différents niveaux d’agrégation(ces distances s’appellent les indices de niveaux)
Inerties interclasse et intraclasse • E1, E2 … EH partition de E en H groupes • Ek : nk individus et Gk centre de gravité • L’inertie (totale) Itot de E est la somme de : • l’inertie intraclasse Iintra (somme des inerties de chacun des H groupes par rapport à son centre de gravité Gk) • et l’inertie interclasse Iinter(inertie du nuage des centres de gravité Gk) Itot = Iintra + Iinter • Au départ d’une CAH, l’inertie intraclasse est nulle et l’inertie interclasse égale l’inertie totale.
CAH selon la variance (Ward) • A chaque étape, on regroupe les 2 éléments qui permettent de minimiser la perte d’inertie interclasse (ou, ce qui revient au même,de maximiser le gain d’inertie intraclasse).