1 / 32

Corrélation et régression linéaire simple

Corrélation et régression linéaire simple. La corrélation La régression linéaire simple. Nuage de points:. Y. X. Introduction. Etude de la relation entre deux variables quantitatives:. description de l’association linéaire: corrélation, régression linéaire simple

dianne
Download Presentation

Corrélation et régression linéaire simple

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corrélation et régression linéaire simple La corrélation La régression linéaire simple

  2. Nuage de points: Y X Introduction Etude de la relation entre deux variables quantitatives: • description de l’association linéaire: corrélation, régression linéaire simple • explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple

  3. La corrélation Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:

  4. La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0

  5. La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:

  6. X2 r = 0.9 r = -0.9 X2 r = 0.5 r = -0.5 X2 X2 r = 0 r = 0 La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 X2 X1

  7. La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8

  8. Y Homoscédasticité Y Hétéroscédasticité X La corrélation Homoscédasticité 3. Conditions d’utilisation La variance de Y est indépendante de X et vice-versa.

  9. La corrélation Linéarité 3. Conditions d’utilisation La relation est linéaire Y Y Non-linéarité Linéarité X X

  10. La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH LFKL 40 1.5 30 1.4 20 1.3 0 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique

  11. La corrélation 4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)

  12. La corrélation b. Test de r = 0 4. Tests de la corrélation Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité

  13. La régression linéaire simple Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X

  14. La régression linéaire simple Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles

  15. La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X

  16. La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X

  17. La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres On cherche le minimum de

  18. La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres

  19. La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres et Si y = a+bx alors On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:

  20. La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) • distribution normale des erreurs • variance identique (homoscédasticité) • indépendance: • linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus

  21. La régression linéaire simple Normalité de l’erreur 3. Qualité de l’ajustement Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?

  22. La régression linéaire simple Homoscédasticité 3. Qualité de l’ajustement Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc

  23. La régression linéaire simple Indépendance entre erreurs, linéarité 3. Qualité de l’ajustement Structure de l’erreur? Résidus Résidus Relation non linéaire?

  24. La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:

  25. Y SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination + = = +

  26. La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?

  27. La régression linéaire simple Relation entre r et r2 4. Coefficient de détermination Donc En particulier, r = 0 <=> r2 = 0

  28. La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à

  29. La régression linéaire simple Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents

  30. La régression linéaire simple Autres tests • comparaison de la pente à une valeur non nulle • comparaison de l’ordonnée à l’origine à une valeur quelconque • comparaison de pentes

  31. La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)

  32. La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests • test de r • Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente

More Related