771 likes | 1.78k Views
Corrélation et régression linéaire simple. La corrélation La régression linéaire simple. Nuage de points:. Y. X. Introduction. Etude de la relation entre deux variables quantitatives:. description de l’association linéaire: corrélation, régression linéaire simple
E N D
Corrélation et régression linéaire simple La corrélation La régression linéaire simple
Nuage de points: Y X Introduction Etude de la relation entre deux variables quantitatives: • description de l’association linéaire: corrélation, régression linéaire simple • explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple
La corrélation Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:
La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0
La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:
X2 r = 0.9 r = -0.9 X2 r = 0.5 r = -0.5 X2 X2 r = 0 r = 0 La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 X2 X1
La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8
Y Homoscédasticité Y Hétéroscédasticité X La corrélation Homoscédasticité 3. Conditions d’utilisation La variance de Y est indépendante de X et vice-versa.
La corrélation Linéarité 3. Conditions d’utilisation La relation est linéaire Y Y Non-linéarité Linéarité X X
La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH LFKL 40 1.5 30 1.4 20 1.3 0 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique
La corrélation 4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)
La corrélation b. Test de r = 0 4. Tests de la corrélation Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité
La régression linéaire simple Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X
La régression linéaire simple Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles
La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X
La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X
La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres On cherche le minimum de
La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres
La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres et Si y = a+bx alors On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:
La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) • distribution normale des erreurs • variance identique (homoscédasticité) • indépendance: • linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus
La régression linéaire simple Normalité de l’erreur 3. Qualité de l’ajustement Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?
La régression linéaire simple Homoscédasticité 3. Qualité de l’ajustement Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc
La régression linéaire simple Indépendance entre erreurs, linéarité 3. Qualité de l’ajustement Structure de l’erreur? Résidus Résidus Relation non linéaire?
La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:
Y SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination + = = +
La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?
La régression linéaire simple Relation entre r et r2 4. Coefficient de détermination Donc En particulier, r = 0 <=> r2 = 0
La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à
La régression linéaire simple Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple Autres tests • comparaison de la pente à une valeur non nulle • comparaison de l’ordonnée à l’origine à une valeur quelconque • comparaison de pentes
La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)
La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests • test de r • Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente