Corrélation et régression linéaire simple

Corrélation et régression linéaire simple La corrélation La régression linéaire simple

Nuage de points: Y X Introduction Etude de la relation entre deux variables quantitatives: • description de l’association linéaire: corrélation, régression linéaire simple • explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple

La corrélation Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:

La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0

La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:

X2 r = 0.9 r = -0.9 X2 r = 0.5 r = -0.5 X2 X2 r = 0 r = 0 La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 X2 X1

La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8

Y Homoscédasticité Y Hétéroscédasticité X La corrélation Homoscédasticité 3. Conditions d’utilisation La variance de Y est indépendante de X et vice-versa.

La corrélation Linéarité 3. Conditions d’utilisation La relation est linéaire Y Y Non-linéarité Linéarité X X

La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH LFKL 40 1.5 30 1.4 20 1.3 0 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique

La corrélation 4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)

La corrélation b. Test de r = 0 4. Tests de la corrélation Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité

La régression linéaire simple Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X

La régression linéaire simple Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles

La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X

La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X

La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres On cherche le minimum de

La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres

La régression linéaire simple Méthode des moindres carrés 2. L’estimation des paramètres et Si y = a+bx alors On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:

La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) • distribution normale des erreurs • variance identique (homoscédasticité) • indépendance: • linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus

La régression linéaire simple Normalité de l’erreur 3. Qualité de l’ajustement Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?

La régression linéaire simple Homoscédasticité 3. Qualité de l’ajustement Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc

La régression linéaire simple Indépendance entre erreurs, linéarité 3. Qualité de l’ajustement Structure de l’erreur? Résidus Résidus Relation non linéaire?

La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:

Y SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) La régression linéaire simple Décomposition de la variation 4. Coefficient de détermination + = = +

La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?

La régression linéaire simple Relation entre r et r2 4. Coefficient de détermination Donc En particulier, r = 0 <=> r2 = 0

La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à

La régression linéaire simple Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents

La régression linéaire simple Autres tests • comparaison de la pente à une valeur non nulle • comparaison de l’ordonnée à l’origine à une valeur quelconque • comparaison de pentes

La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)

La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests • test de r • Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente

Corrélation et régression linéaire simple

Corrélation et régression linéaire simple

Presentation Transcript

Create a Simple Game in Scratch

SIMPLE MIXTURES

EFECTOS DE LOS CONTAMINANTES DEL AIRE EN LA SALUD DE LA POBLACIÓN URBANA Dr. Germán Corey Guadalajara, julio 2006

Techniques d’imagerie abdominale en médecine nucléaire

People Equal by James Berry Christopher Corr From Dare to be different , Amnesty

Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

Simple Machines

L’affaire ENRON

Le C aire André Raymond

ALINEAMIENTOS SIMPLE Y MÚLTIPLE

MATHÉMATIQUES DISCRÈTES Chapitres 6-7

Nubes

Simple Machines and Mechanical Advantage

Deuxième mission pour Julie Payette

IMPRESIONISMO Y AIRE LIBRE

Performed by

Curso de Refrigeración y Aire Acondicionado

eneradeau.site.voila.fr

Master MPRI Rappels : dualité de la programmation linéaire

How to Develop Qt Program Simple Examples (5)

Stupidly Simple Webinars Review & (Secret) $22,300 bonus