600 likes | 852 Views
LES ANALYSES MULTIVARIÉES EN BIOLOGIE. Rappels. Les types de variables Notion de dépendance entre les variables Un peu de statistiques Euclidienne. Les analyses multivariées, Introduction. Les objectifs La notion d’inertie - Généralités - Notion d’axe principale
E N D
LES ANALYSES MULTIVARIÉES EN BIOLOGIE Rappels • Les types de variables • Notion de dépendance entre les variables • Un peu de statistiques Euclidienne Les analyses multivariées, Introduction • Les objectifs • La notion d’inertie - Généralités - Notion d’axe principale - Généralisation à un tableau multivarié L’Analyse en Composante Principale (A.C.P.) • Type de tableaux • Conditions d’utilisation • Objectifs de l’A.C.P. • Principales étapes de l’A.C.P. • Représentation graphique et aide à l’interprétation • Exemples et illustrations
Interrelation entre les différentes étapes de la recherche en écologie Planification de l’échantillonnage Conception de la recherche Echantillonnage Hypothèses nouvelles Analyse des données Traitement numérique Détermination en laboratoire Interprétation des résultats Données inutilisables Conclusions Déroulement de la recherche Rétroaction
Rappels Les types de variables La moindre étude statistique nécessite la compréhension d’au moins 5 concepts fondamentaux, à savoir : • la population statistique • l’échantillon • le tirage aléatoire • l’élément statistique ou unité d’échantillonnage • LA VARIABLE UNE VARIABLE EST UNE CARACTERISTIQUE MESUREE OU OBSERVEE SUR CHACUN DES ELEMENTS DE L’ECHANTILLON OU SUR DES ENTITES PREDEFINIES QUI SE RATTACHENT AUX UNITES D’ECHANTILLONNAGE Variables propres = attribut de l’élément (T°C interne d’un animal, sa taille, son poids…) Variables associées = variables qui ne sont pas mesurées sur l’éléments proprement dit (quantité de nourriture disponible dans l’environnement, T°C ambiante…)
Rappels Les types de variables Dans tous les cas, cette caractéristique est sujette à des variations qui peuvent être quantitatives ou qualitatives. Un caractère, ou une variable, est de nature qualitative s’il ne peut être mesuré tout en demeurant susceptible de classement, comme le sexe, l’espèce, l’état civil,…, d’un sujet. Un caractère est de nature quantitative s’il peut être mesuré, comme la hauteur, la longueur, la largeur, le poids,…, d’un objet.
Rappels Les types de variables Les variables retenues par les biologistes peuvent être classées en plusieurs catégories : MODALITES BINAIRES MULTIPLES Précision croissante NON ORDONNEES ORDONNEES ½ QUANTI QUANTITATIVE D’intervalle Relatives BINAIRES NOMILALES ORDINALES INTERVALLE DISCONTINUES CONTINUES Couleurs Cat. Soci. Prof. Rangs Préférences hiérarchie °C Dénombrements Taille Poids T°C pH… Oui/non Abs./pres. +/- 1/2 Qualitatives Quantitatives
Rappels Notions de dépendance entre les variables SI UNE SEULE VARIABLE A ANALYSER Individu Taille (cm) 1 2 3 … N 1,40 1,55 1,81 … 1,76 - Les paramètres de position : renseignent sur l’ordre de grandeur des valeurs et sur l’existence de valeurs centrales autours desquelles se groupent les mesures (moyenne, médiane, les quartiles, le mode). - Les paramètres de dispersion : renseignent sur le plus ou moins grand étalement de la distribution et précisent ainsi le degré de dispersion autour d’une valeur centrale (variance, coefficient de variation, coefficient d’asymétrie, coefficient d’aplatissement).
Rappels Notions de dépendance entre les variables LE CAS DE DEUX VARIABLES Individu Taille (cm) Poids (g) 1 2 3 … N 1,40 1,55 1,81 … 1,76 2,2 3,0 2,8 … 2,9 Pour chaque variable : - Les paramètres de position - Les paramètres de dispersion - Les paramètres de covariation : indiquent le degré de corrélation ou d’interrelation existant entre deux ou plusieurs variables. Deux paramètres de covariation importants : la covariance la corrélation
Rappels Notions de dépendance entre les variables LA COVARIANCE Illustration : le diagramme de dispersion. XY = (Xi – X)(Yi – Y) Y XY < 0 XY > 0 Y XY < 0 XY > 0 X X
Rappels Notions de dépendance entre les variables LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : n ∑ (Xi – X)(Yi – Y) i = 1 sxy = (n – 1)
Rappels Notions de dépendance entre les variables LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : Matrice de variance-covariance : TAILLE POIDS TAILLE POIDS sxx = sx² sxy syx syy = sy²
Rappels Notions de dépendance entre les variables LA COVARIANCE Y COVARIANCE POSITIVE COVARIANCE NEGATIVE Y Y Y X X X X Y COVARIANCE NULLE Y X X
Rappels Notions de dépendance entre les variables LA CORRELATION La covariance n’est pas bornée et est dépendante des unités de mesures des variables considérées SOLUTION : diviser par le produit des écarts-types des deux variables et on obtient la corrélation, d’où : Cov(x,y) avec -1 < Cor(x,y) < 1 Cor(x,y) = sxsy Matrice de corrélations : TAILLE POIDS TAILLE POIDS Cor(x,x) = 1 Cor(x,y) Cor(y,x) Cor(y,y) = 1 Et la dépendance entre deux variables qualitatives …???
Rappels Notions de dépendance entre les variables CAS DE DEUX VARIABLES QUALITATIVES EXEMPLE : On prélève des gammares dans plusieurs bassins versants de France afin d’étudier la répartition spatiale des populations de parasites de crustacés. TABLEAU DE CONTINGENCE BASSINS VERSANTS PARASITESArtois Rhin Garonne Seine Total 13 8 3 11 35 Présence de parasites Absence de parasites Total des points de prélèvements 8 12 38 1 17 21 15 28 73 9 VARIABLES INDEPENDANTES ? Soit un gammare prélevé au hasard : P(parasité) = 35/73 = 0,48 P(parasité/Rhin) = 8/9 = 0,89 La présence de parasite et le site de prélèvement ne sont pas des variables indépendantes. Comment tester l’indépendance entre 2 variables qualitatives ?
Rappels Notions de dépendance entre les variables 1 variable : taille 2 variables : poids rpoids-taille = 0,99
Rappels Notions de dépendance entre les variables 3 variables ?
Rappels Notions de dépendance entre les variables 3 variables ? : la représentation triangulaire procédé graphique par lequel on place un point à trois coordonnées (a, b, c) positives ou nulles et vérifiant a+b+c = 1 ou a + b + c = 100 dans un triangle équilatéral.
Rappels Notions de dépendance entre les variables le point (x, y, z) appartient au plan x+y+z = 1 à l’intérieur du triangle défini par les extrémités des vecteurs de la base canonique e1 = (1, 0, 0), e2 = (0, 1, 0) et e3 = (0, 0, 1)
Rappels Notions de dépendance entre les variables • 3 variables (poids, taille, largeur) mesurées sur une population de cerfs. Points bleus = mâles, points rouges = femelles. Visualisation en 2D d’un nuage de points initialement en 3D
Rappels Cas d’une série statistique multiple Tableau = matrice des données VARIABLES ELEMENT 1 2 3 … j … p 1 2 3 i n-1 n x11 x21 x31 xi1 xn-1,1 xn1 x12 x22 x32 xi2 xn-1,2 xn2 x13 x23 x33 xi3 xn-1,3 xn3 x1j x2j x3j xij xn-1,j xnj x1p x2p x3p xip xn-1,p xnp Matrice de variances – covariances associée à ce tableau s1² s12 s13 s1j s1p s23 s2j s2p s21 s2² s3j s3p s31 s32 s3² S = sjp sj1 sj2 sj² sj3 sp1 sp2 sp3 spj sp²
Rappels Cas d’une série statistique multiple COMMENT ANALYSER CE TABLEAU DE DONNEES ? • Statistiques élémentaires sur les colonnes • Profils des individus • Diagramme de dispersion pour chaque couple de variables MAIS ces diverses stratégies ne donnent pas une vision globale du tableau
LES ANALYSES MULTIVARIEES Introduction Permettent de traiter simultanément de nombreuses variables caractérisant les individus de l’étude But principalement descriptif et exploratoire Représentation synthétique d’un tableau de données : - en extrayant le maximum d’information, plus exactement de variabilité, de variance ou d’inertie - avec en contrepartie le minimum de distorsion par rapport aux données d’origine Ces méthodes s’appliquent à des tableaux rectangulaires pouvant être de nature diverse. 2 grands types de méthodes : L’ordination (méthodes factorielles) : permettent de dégager des grands axes suivants lesquels s’ordonnent les objets et/ou les variables La classification (hiérarchique ou non) : définissent des grandes classes dans lesquelles se rangent les objets.
LES ANALYSES MULTIVARIEES Introduction Objectif : mettre en évidence une structure dans un tableau d’individus/variables DES GRANDS AXES Le long desquels s’ordonnent les indiv./variables DES GRANDES CLASSES Partitionnant les indiv./variables 2 types de méthodes visant à construire ORDINATIONen espace réduit CLASSIFICATION tableau • Tableau : • De mesures • De contingence De mesures De contingence AFC ACP ACM MATRICE DE SIMILARITE (DISTANCES) MATRICE DE COVARIANCE Méthodes de groupement Vecteurs propres – Valeurs propres Une seule partition, nombre de classes fixé a priori Plusieurs partitions hiérarchisées Coordonnées factorielles Représentation sur des axes où sont conservées : Classification non hiérarchique (partition) Distance euclidienne entres individus Corrélation entre variables Distance du khi² entre indiv./variables Classification hiérarchique v1 . . . a c b g h d d . e . . v1 . . a . . . v2 . . v2 b . . f . . . . c . . g i h
LES ANALYSES MULTIVARIEES La notion d’inertie A partir d’un tableau de données contenant n lignes et p colonnes, un individu peut être représenté géométriquement dans un espace à p dimensions par les valeurs qu’il possède pour chaque variable. L’INERTIE, une notion fondamentale 2 définitions possibles : - Statistique : L’inertie se confond avec la notion de variance - Géométrique : l’inertie est une combinaison de la distance au barycentre par le poids L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)²
LES ANALYSES MULTIVARIEES La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² Y Yi i G Y X X Xi G : point moyen du nuage de points : distance du point i au barycentre
Y Yi i G Y X X Xi LES ANALYSES MULTIVARIEES La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² Décomposition de l’inertie: Théorème de Pythagore: (Yi-Y) (Gi)² = (xi – x)² + (yi – y)² = contribution de l’individu i à la variance du nuage (Xi-X) n ∑(Gi)² = ∑(xi – x)² + ∑(yi – y)² i = 1 = n(VAR(x) +VAR(y)) G : point moyen du nuage de points : distance du point i au barycentre = somme des inerties : inertie totale
Y Yi i G Y X X Xi LES ANALYSES MULTIVARIEES La notion d’axe principal Représentation simplifiée d’un nuage de points sur un axe OBJECTIF : représenter un nuage des individus de la meilleure façon possible dans un espace à 1 dimension seulement. Rechercher un axe qui préserve au mieux les distances entre les individus. Quel axe ?
Y Yi i G Y X X Xi LES ANALYSES MULTIVARIEES La notion d’axe principal Rechercher un axe qui préserve au mieux les distances entre les individus. L’INERTIE projetée de i sur un axe ifi ( Gfi )² L’INERTIE totale : Décomposition pour chaque point : (Gi)² = (Gfi)² + (ifi)² Inertie totale du nuage : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² G : point moyen du nuage de points : distance du point i au barycentre = Gi : axe de direction quelconque passant par G : distance de la projection du point i sur l’axe pi = poids du point i ifi
LES ANALYSES MULTIVARIEES La notion d’axe principal L’inertie totale se décompose en 2 parties : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetée(expliquée par l’axe) L’inertie non projetée(non expliquée par l’axe) LA SOLUTION : L’AXE PRINCIPALE L’axe recherché pour représenter de façon simplifiée la structure du nuage de points en préservant au mieux les distances entre les points doit rendre compte du maximum d’inertie de ce nuage. COMMENT CONSTRUIRE CET AXE ? Il doit être construit de façon à rendre : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetéeMAXIMALE L’inertie non projetéeMINIMALE
Y Y Yi Yi i i G G Y Y X X X X Xi Xi LES ANALYSES MULTIVARIEES La notion d’axe principal MAUVAIS BON – Axe principal 2 dimensions (nuage de points) 1 dimension (1 axe)
LES ANALYSES MULTIVARIEES La notion d’axe principal Variable 2 II III I Variable 3 Variable 1 III II II I I III
LES ANALYSES MULTIVARIEES La notion d’axe principal
LES ANALYSES MULTIVARIEES Généralisation à un tableau multivarié Obs 2 II Obs 3 I Obs1 Espace réduit Espace initial L’objectif de l’analyse multivariée est de représenter les variables en espace réduit, en conservant le plus possible leurs relations mutuelles… …donc en déformant le moins possible les angles entre vecteurs
LES ANALYSES MULTIVARIEES Généralisation à un tableau multivarié Généralisation : Décomposition de l’inertie dans un tableau de n lignes et p variables On peut définir une série d’axes d’inertie décroissante satisfaisant 2 conditions : - les inerties projetées, axe par axe, doivent être maximales - ces axes sont mutuellement orthogonaux S’il y a p variables, il existe p axes satisfaisant ces conditions. 2 voies exploratoires : - Ressemblance entre les individus : quels sont les individus qui se ressemblent ? Quels sont ceux différents ?Peut on mettre en évidence une TYPOLOGIE DES INDIVIDUS ? • Le bilan des liaison entre variables : quelles sont les variables liées positivement ? Quelles sont celles qui s’opposent ? • Peut on mettre en évidence une TYPOLOGIE DES VARIABLES ?
LES ANALYSES MULTIVARIEES Généralisation à un tableau multivarié Typologie des individus Typologie des variables ryx = cos θ II II I I w x y z w x y z 1 1 ryx 1 1
L’Analyse en Composante Principale (ACP) Généralités Type de tableaux • Lignes = observations ou individu statistiques • Colonnes = variables quantitatives mesurées sur les individus • Deux éléments du tableau sont strictement distincts et non interchangeables Conditions • Calcul des corrélations entre les variables et des distances entre les individus. La notion de corrélation linéaire doit donc avoir un sens entre les variables. • Conditions de normalité de l’ensemble des variables respectées (mais méthode robuste). Objectifs • Représenter les distances entre les individus à l’aide d’un petit nombre de variables (en perdant le minimum d’information). • Nouvelles variables = synthèse des variables initiales. • Elles sont indépendantes • Représenter les relations entre les variables initiales Géométriquement, l’espace initiale est multidimensionnel (p dimensions) et non orthogonal. On cherche à représenter les observations dans un espace orthogonal de plus faibles dimensions.
L’Analyse en Composante Principale (ACP) Principales étapes 1- Choix d’une métrique Transformation de la matrice de données en une matrice : - de variances-covariances : ACP non normée - de corrélation : ACP normée COMMENT ? le calcul matriciel La matrice variances-covariances : centrage Y0 Y (yij – mj) transposition S Y0’ Matrice carré [S] [S]. 1/(n-1) = [S] = matrice de variances-covariances
L’Analyse en Composante Principale (ACP) Principales étapes 1- Choix d’une métrique La matrice des corrélations S s-1 s-1 R [S] = matrice variances-covariances [s-1] = matrice diagonale inverse des écart-types [R] = matrice des corrélations
L’Analyse en Composante Principale (ACP) Principales étapes 2- Les axes principaux On va chercher à représenter le nuage de points multidimensionnel selon ses axes de plus grandes extension. Chaque axe principale doit répondre à 2 conditions : - les inerties projetées doivent être maximales - ces axes sont mutuellement orthogonaux SOLUTION :LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée) Ce sont de nouveaux axes orthogonaux : nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS
L’Analyse en Composante Principale (ACP) Principales étapes 2- Les axes principaux SOLUTION :LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée) Ce sont de nouveaux axes orthogonaux : ils correspondent à des nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS F1 F2 Matrice des vecteurs propres U S F1 F2 λ1 0 Matrice des valeurs propres [Λ] 0 λ2
L’Analyse en Composante Principale (ACP) Principales étapes 3- La position des éléments dans le nouveau repère [Y0] = matrice des données centrées Coordonnées des individus sur les axes : [U] = matrice des vecteurs propres [F] = [Y0] . [U] [F] = matrice des coordonnées des individus sur les axes principaux Position des variables dans le nouveau système d’axes : [V] = [U] . [Λ]1/2 [Λ]1/2 = matrice des valeurs propres puissance 1/2 [V] = Coordonnées factorielles des colonnes de [Y] Représentation des variables : • Angles entre les vecteurs proportionnels à leur corrélation • Projection sur un axe principal = corrélation avec le facteur correspondant
L’Analyse en Composante Principale (ACP) Principales étapes F1 F2 La trace de [Λ] = somme des valeurs propres de [S] = trace [S] = somme des variances de [Y] = inertie totale λ1 0 0 λ2 Statistiquement : le premier vecteur propre possède la valeur propre la plus élevée : rend compte du maximum de variation contenue dans les données d’origine. Chaque vecteur suivant rend compte du maximum de la variance restant à expliquer. La longueur des vecteurs propres est rapportée à 1 Géométriquement : le premier axe suit le sens de la plus grande longueur du nuage multidimensionnel des données dans l’espace des variables d’origine. La fraction d’inertie totale extraite par la projection du nuage sur cet axe principal correspond à la 1° valeur propre, et ainsi de suite pour les valeurs propres suivantes.
L’Analyse en Composante Principale (ACP) Exemple numérique pds long larg 25 0.55 0.50 34 2.70 0.20 22 1.32 0.80 15 1.00 1.20 ACP Normées (données centrées réduites) ACP Non normée (données centrées) Y0 YCR pds long larg 46.5 3.98 0.64 -2.47 -.17 0.14 1.0 0.73 1.0 -.93 -.58 1.0 pds long S = matrice des variances-covariances R = matrice des corrélations larg ∑ = inertie totale = 47.28 ∑ = nombre de variables = 3
L’Analyse en Composante Principale (ACP) Exemple numérique pds long larg 25 0.55 0.50 34 2.70 0.20 22 1.32 0.80 15 1.00 1.20 Données brutes F1 F2 F3 .99 -.15 0.0 .82 .57 0.0 -.94 -.34 0.0 pds Coordonnées factorielles variables long larg F1 F2 F3 -.17 -1.15 0.0 2.51 .40 0.0 -.43 .16 0.0 -1.91 .59 .01 i1 i2 Coordonnées factorielles individus i3 I4
L’Analyse en Composante Principale (ACP) Exemple numérique pds long larg 25 0.55 0.50 34 2.70 0.20 22 1.32 0.80 15 1.00 1.20 F2 Données brutes larg long F1 F2 F3 F1 .99 -.15 0.0 .82 .57 0.0 -.94 -.34 0.0 G pds pds Coordonnées factorielles variables long larg F2 1 F1 F2 F3 i4 -.17 -1.15 0.0 2.51 .40 0.0 -.43 .16 0.0 -1.91 .59 .01 i2 i3 i1 F1 i2 G 1 Coordonnées factorielles individus -1 i3 -1 i1 i4
L’Analyse en Composante Principale (ACP) Exemple numérique Valeurs propres 46.97 0.00 0.31 0.00 0.00 0.14 ∑ = inertie totale = 47.28 Décomposition de l’inertie sur les facteurs % Valeur propre % cumulé 99.3 0.7 0.0 99.3 100.0 100.0 46.97 0.31 0.0 1 2 3
L’Analyse en Composante Principale (ACP) Exemple numérique Un exemple simple et un peu plus complet Jeu de données : 237 étudiants de l’université de d’Adélaïde (Australie) Longueur de la main directrice(droite pour un droitier) Longueur de la mainnon- directrice(gauche pour un droitier) Taille de l’individu H / F H 22, 4 176,8 21, 9 ……………… ……………… ……………… ………………
L’Analyse en Composante Principale (ACP) Exemple numérique Décomposition de l’inertie sur les facteurs % Valeur propre % cumulé 83,6 15,2 1,1 83,6 98,8 100,0 2,51 0.45 0.03 1 2 3 Matrice de corrélation Main_D Main_nD taille Main_D 1.00 Main_nD 0.96 1.00 taille 0.65 0.62 1.00
L’Analyse en Composante Principale (ACP) Exemple numérique Main_D Main_nD taille Main_D 1.00 Main_nD 0.96 1.00 taille 0.65 0.62 1.00 II I
L’Analyse en Composante Principale (ACP) Exemple numérique taille Main_D I Main_nD
LES ANALYSES MULTIVARIEES La notion d’axe principal