1 / 41

Méthodes de régression

Méthodes de régression. LA REGRESSION LINEAIRE. Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x 1 ,….., x p. Par exemple y peut-être le prix du pain en fonction de la teneur en eau x y x i

violet
Download Presentation

Méthodes de régression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Méthodes de régression B. Palagos

  2. LA REGRESSION LINEAIRE • Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp. • Par exemple • y peut-être le prix du pain en fonction de la teneur en eau x • y xi • réponse prédicteur(s)variable à expliquer variable(s) explicative(s) • sortie entrée(s) • variable dépendante variable(s) indépendante(s) • variable exogène variable(s) endogène (s) • p = 1 régression linéaire simple • p > 1 régression linéaire multiple (MLR)

  3. MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES PRIX du pain en fonction de la teneur en EAU Corrélation : -0.76

  4. COEFFICIENT DE CORRELATION •  : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations) • 2 échantillons x et y de moyennes et • r estimateur de  • r est toujours compris entre -1 et + 1. • si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). • r = 0 Pas de lien linéaire entre x et y

  5. COEFFICIENT DE CORRELATION Si taille échantillon n est faible il faut être prudent sur la significativité du coefficient calculé. Il existe des tables statistiques (et logiciels) qui donnent la limite de significativité de r .

  6. ddl = n-2 n=3 r > 0.99n= 7 r > 0.75

  7. COEFFICIENT DE CORRELATION

  8. COEFFICIENT DE CORRELATION Toujours faire un graphique r = 0.5 r = - 0.9 r = 0.8 r = 0.0

  9. FAIRE PASSER UNE DROITE On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)

  10. MOINDRES CARRES On cherche la droite (a et b ) telle que MCO - 140 PRI 100 80 60 2500 3000 3500 4000 EAU

  11. RESULTAT DES MOINDRES CARRES MCO Équation de la droite 140 PRI = 258 – 0.05 EAU PRI 100 80 60 2500 3000 3500 4000 EAU

  12. ESTIMATIONS – Cas p=1 Moindre carrés : a et b tels que minimum coefficients de régression b (pente) et a (ordonnée à l’origine)

  13. CAS DE LA REGRESSION SIMPLE p=1 8 7 6 y 5 4 2 3 4 5 6 7 8 x

  14. COEFFICIENT DE DETERMINATION - R² • R2 = SSR/SSTcoefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés • Permet de juger de la qualité de la régression • Idéal R² = 1 • Mauvaise régression: R² = 0 Quand p=1 R² = r² r : coefficient de corrélation linéaire Pour le pain: r=-0.76 donc R²= (-0.76)²

  15. Étalonnage d’un appareil de mesure • Taux de protéine de 26 variétés de blé • analyse chimiques très précises, très longues (mesure de référence) ( x ) • Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y) • régression y= a+bx+E y = 0.157+0.981x =

  16. Étalonnage d’un appareil de mesure Calculs avec logiciel R Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference 1 38.731 38.731 87.954 1.696e-09 *** Residuals 24 10.569 0.440 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.1566 1.1741 0.133 0.895 reference 0.9808 0.1046 9.378 1.70e-09 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6636 on 24 degrees of freedom Multiple R-Squared: 0.7856, Adjusted R-squared: 0.7767 F-statistic: 87.95 on 1 and 24 DF, p-value: 1.696e-09 p-value

  17. TEST DE NULLITE D’ UN COEFFICIENT Les tests supposent hypothèse normalité des erreurs (vérification a posteriori) Coefficient pas significatif Variance de l’erreur Variance de j T Loi de Student à n-2 degrés de liberté : valeur t ayant la probabilité a d'être dépassée en valeur absolue. P ( - t < T < t ) = 1 -a. Ou :P ( T < - t ) = a /2 = P ( T > t )

  18. COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR On regarde les résidus après régression Pour vérifier l’homoscedasticté Pour vérifier la normalité

  19. JUGEMENT REGRESSION - R² 5 régressions a: régression sans pbb: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratiquec: a priori une observation atypiqued: points alignés mais s’écartent différemment (variance erreurs pas constante)e: droite n’existe que par la dernière observation

  20. Explication de la consommation de « fuel » On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs : La température moyenne sur un mois est une explication de la consommation L ’épaisseur de l ’isolation en est un autre REGRESSION LINEAIRE MULTIPLE (MLR) Gallons/Month Avrg. Temp (oF) Insulation (Inches) 275.30 40.00 3.00 363.80 27.00 3.00 164.30 40.00 10.00 40.80 73.00 6.00 94.30 64.00 6.00 230.90 34.00 6.00 366.70 9.00 6.00 300.60 8.00 10.00 237.80 23.00 10.00 121.40 63.00 3.00 31.40 65.00 10.00 203.50 41.00 6.00 441.10 21.00 3.00 323.00 38.00 3.00 52.50 58.00 10.00

  21. REGRESSION LINEAIRE MULTIPLE (MLR) Un modèle de régression linéaire Influence de l ’isolation Observation i de la consommation mensuelle Terme constant Influence de la température Erreur aléatoire

  22. REGRESSION LINEAIRE MULTIPLE (MLR) n observations yi p variables xj continues n > p Modèle fuel : n=15 p=2 Pour chaque observation : terme d’erreur non observé Coefficients inconnus

  23. Décomposition de la variance et tests

  24. COEFFICIENT DE DETERMINATION - R² • R2 coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés • Permet de juger de la qualité de la régression • Idéal R² = 1 • Mauvaise régression: R² = 0 • Si p augmente R² il existe R² ajusté > Quand p=1 R² = r² r : coefficient de corrélation linéaire

  25. TEST DE L’EXISTENCE DU MODELE F Loi de Fisher à (p,n-p-1 )degrés de liberté : valeur f ayant la probabilité 0.05 d'être dépassée.

  26. EXEMPLE de MLR reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.095238 2.491482 11.277 0.000352 *** eng 0.038095 0.005832 6.532 0.002838 ** pluie 0.833333 0.154303 5.401 0.005690 ** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 2.315 on 4 degrees of freedom Multiple R-Squared: 0.9814, Adjusted R-squared: 0.972 F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472 p-value

  27. REGRESSION MLR cas multicolinéarité Exemple de traitement y X quantité de :V1 : tricalcium aluminateV2 : tricalcium silicateV3 : tetracalcium alumino ferriteV4 : dicalcium silicateCAL: calories par gramme de ciment

  28. REGRESSION MLR Matrice de corrélation

  29. REGRESSION MLR Résultats de la régression MLR Estimate Std. Error t value Pr(>|t|) (Intercept) 63.4888 70.0031 0.907 0.3909 V1 1.5494 0.7440 2.082 0.0709 V2 0.4960 0.7231 0.686 0 0.5121 V3 0.1004 0.7540 0.133 0.8974 V4 -0.1572 0.7084 -0.222 0.8299 Residual standard error: 2.444 on 8 degrees of freedom Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 F-statistic: 111.7 on 4 and 8 DF, p-value: 4.721e-07 Au risque de 5% aucun coefficient n’est significatif que faire????

  30. REGRESSION SUR COMPOSANTES PRINCIPALES On fait une ACPnormée sur le tableau X donc sans la variable CAL • ACP sur le tableau X comprenant les variables V1 V2 V3 V4 • Valeur propres • [1] 2.235 1.576 0.186 0.001 • Proportion of Variance 0.558 0.394 0.0466 0.0004 • Cumulative Proportion 0.558926 0.9529425 0.99959406 1.0000000000 • Loadings (vecteurs propres): • C1 C2 C3 C4 • v1 -0.476 0.509 0.676 0.241v2 -0.564 -0.414 -0.314 0.642 • v3 0.394 -0.605 0.638 0.268 • v4 0.548 0.451 -0.195 0.677 • C1= - 0.476 v1 – 0.564 v2 + 0.394 v3 + 0.548 v4C2= 0.509 v1 – 0.414 v2 - 0.605 v3 + 0.451 v4 • C3= 0.676 v1 – 0.314 v2 + 0.638 v3 - 0.195 v4 • C4= 0.241 v1 + 0.642 v2 + 0.268 v3 + 0.677 v4 U = Combinaisons linéaires

  31. REGRESSION SUR COMPOSANTES PRINCIPALES ACP sur X MLR y X C SCORES C1 C2 C3 C4 1 -1.4672378 -1.9030358 -0.53000037 0.038529908 2 -2.1358287 -0.2383536 -0.29018640 -0.029832930 3 1.1298705 -0.1838772 -0.01071259 -0.093700786 4 -0.6598954 -1.5767743 0.17920354 -0.033116396 5 0.3587645 -0.4835379 -0.74012232 0.019187145 6 0.9666396 -0.1699440 0.08570243 -0.012167032 7 0.9307051 2.1348166 -0.17298595 0.008295395 8 -2.2321379 0.6916707 0.45971967 0.022605633 9 -0.3515156 1.4322451 -0.03156437 -0.044987631 10 1.6625430 -1.8280967 0.85119311 0.019836723 11 -1.6401799 1.2951128 0.49417844 0.031388975 12 1.6925940 0.3922488 -0.01980997 0.037185301 13 1.7456786 0.4375254 -0.27461537 0.036775709

  32. REGRESSION SUR COMPOSANTES PRINCIPALES Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 95.4000 0.6430 148.373 < e-10 *** C1 9.8791 0.4476 22.072 3.8e-09 *** C2 0.1327 0.5331 0.249 0.8091 C3 4.6539 1.5492 3.004 0.0149 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.318 on 9 degrees of freedom Multiple R-Squared: 0.9822, Adjusted R-squared: 0.9763 F-statistic: 165.4 on 3 and 9 DF, p-value: 3.45e-08 CAL = 95.4 + 9.88 C1 + 0.13 C2 +4.65 C3 On repasse aux variables initiales: CAL = 95.4 + 7.78 V1 + 4.16 V2 + -0.85 V3 – 6.38 V4

  33. REGRESSION PLS • Méthode plus récente • Partial Least Square • Proche de la régression sur composantes principales RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

  34. REGRESSION PLS et PCR RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire.Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

  35. REGRESSION PLS • Notion de covariance : Cov<0 Cov>0 Cov0

  36. Notion de covariance (bis) : Cov(x,y) = s(x) s(y) r(x,y) REGRESSION PLS x ||x|| s(x) Dans Rn cos(x,y) = r(x,y) ||y|| s(y) y xTycov(x,y)

  37. Comment ça marche : Cherche les combinaisons linéaires u de X, telles que : Cov(Xu,y) maximale Une régression est ensuite calculée entre les variables latentes de X et y REGRESSION PLS

  38. v633 v649 v666 v683 v700 v716 v733ytep 1 0.70 0.94 1.48 1.40 0.31 0.06 0.06 87.37 2 1.93 2.47 3.49 3.14 0.90 0.24 0.12 87.16 3 1.27 1.66 2.45 2.21 0.54 0.13 0.08 87.57 4 1.07 1.22 1.71 1.51 0.36 0.10 0.10 87.16 5 0.49 0.64 1.00 0.90 0.15 0.01 0.04 85.99 6 0.59 0.83 1.30 1.15 0.19 0.01 0.04 86.41 7 0.43 0.46 0.69 0.65 0.14 0.04 0.07 80.75 8 0.53 0.48 0.67 0.64 0.14 0.03 0.06 78.74 9 1.25 1.30 1.67 1.62 0.65 0.33 0.25 79.26 10 3.18 3.81 4.66 4.18 1.60 0.60 0.30 85.56 11 1.36 1.51 2.04 1.94 0.66 0.30 0.23 82.35 12 2.20 2.68 3.54 3.25 1.15 0.45 0.27 83.08 13 0.46 0.60 1.09 1.10 0.23 0.04 0.06 81.13 14 1.96 2.39 3.41 3.20 0.95 0.24 0.11 79.97 15 0.56 0.77 1.33 1.31 0.29 0.05 0.06 82.44 X : absorbances aux longueurs d'onde (nm) 633 649 666 683 700 716 733, mesurées sur des pommes ytep (dernière colonne) : teneur en eau des pommes On cherche à prédire ytep en fonction de X

  39. Estimate Std. Error t value Pr(>|t|) (Intercept) 77.726 5.987 12.982 3.74e-06 *** v633 -32.425 12.013 -2.699 0.0307 * v649 78.507 35.796 2.193 0.0644 . v666 -53.496 45.350 -1.180 0.2767 v683 45.365 38.510 1.178 0.2773 v700 -103.69 55.062 -1.883 0.1017 v716 50.320 127.846 0.394 0.7056 v733 22.613 114.740 0.197 0.8494 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.509 on 7 degrees of freedom Multiple R-Squared: 0.8906, Adjusted R-squared: 0.7813 F-statistic: 8.143 on 7 and 7 DF, p-value: 0.006459

  40. Matrice de corrélation des prédicteurs v633 v649 v666 v683 v700 v716 v733 v633 1.00 0.99 0.98 0.97 0.99 0.93 0.79 v649 0.99 1.00 0.99 0.99 0.98 0.90 0.74 V666 0.98 0.99 1.00 1.00 0.97 0.86 0.68 v683 0.97 0.99 1.00 1.00 0.97 0.86 0.69 v700 0.99 0.98 0.97 0.97 1.00 0.96 0.83 v716 0.93 0.90 0.86 0.86 0.96 1.00 0.96 v733 0.79 0.74 0.68 0.69 0.83 0.96 1.00 Corrélations très élevées !!

More Related