Méthodes de régression

Méthodes de régression B. Palagos

LA REGRESSION LINEAIRE • Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp. • Par exemple • y peut-être le prix du pain en fonction de la teneur en eau x • y xi • réponse prédicteur(s)variable à expliquer variable(s) explicative(s) • sortie entrée(s) • variable dépendante variable(s) indépendante(s) • variable exogène variable(s) endogène (s) • p = 1 régression linéaire simple • p > 1 régression linéaire multiple (MLR)

MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES PRIX du pain en fonction de la teneur en EAU Corrélation : -0.76

COEFFICIENT DE CORRELATION •  : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations) • 2 échantillons x et y de moyennes et • r estimateur de  • r est toujours compris entre -1 et + 1. • si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). • r = 0 Pas de lien linéaire entre x et y

COEFFICIENT DE CORRELATION Si taille échantillon n est faible il faut être prudent sur la significativité du coefficient calculé. Il existe des tables statistiques (et logiciels) qui donnent la limite de significativité de r .

ddl = n-2 n=3 r > 0.99n= 7 r > 0.75

COEFFICIENT DE CORRELATION

COEFFICIENT DE CORRELATION Toujours faire un graphique r = 0.5 r = - 0.9 r = 0.8 r = 0.0

FAIRE PASSER UNE DROITE On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)

MOINDRES CARRES On cherche la droite (a et b ) telle que MCO - 140 PRI 100 80 60 2500 3000 3500 4000 EAU

RESULTAT DES MOINDRES CARRES MCO Équation de la droite 140 PRI = 258 – 0.05 EAU PRI 100 80 60 2500 3000 3500 4000 EAU

ESTIMATIONS – Cas p=1 Moindre carrés : a et b tels que minimum coefficients de régression b (pente) et a (ordonnée à l’origine)

CAS DE LA REGRESSION SIMPLE p=1 8 7 6 y 5 4 2 3 4 5 6 7 8 x

COEFFICIENT DE DETERMINATION - R² • R2 = SSR/SSTcoefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés • Permet de juger de la qualité de la régression • Idéal R² = 1 • Mauvaise régression: R² = 0 Quand p=1 R² = r² r : coefficient de corrélation linéaire Pour le pain: r=-0.76 donc R²= (-0.76)²

Étalonnage d’un appareil de mesure • Taux de protéine de 26 variétés de blé • analyse chimiques très précises, très longues (mesure de référence) ( x ) • Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y) • régression y= a+bx+E y = 0.157+0.981x =

Étalonnage d’un appareil de mesure Calculs avec logiciel R Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference 1 38.731 38.731 87.954 1.696e-09 *** Residuals 24 10.569 0.440 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.1566 1.1741 0.133 0.895 reference 0.9808 0.1046 9.378 1.70e-09 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6636 on 24 degrees of freedom Multiple R-Squared: 0.7856, Adjusted R-squared: 0.7767 F-statistic: 87.95 on 1 and 24 DF, p-value: 1.696e-09 p-value

TEST DE NULLITE D’ UN COEFFICIENT Les tests supposent hypothèse normalité des erreurs (vérification a posteriori) Coefficient pas significatif Variance de l’erreur Variance de j T Loi de Student à n-2 degrés de liberté : valeur t ayant la probabilité a d'être dépassée en valeur absolue. P ( - t < T < t ) = 1 -a. Ou :P ( T < - t ) = a /2 = P ( T > t )

COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR On regarde les résidus après régression Pour vérifier l’homoscedasticté Pour vérifier la normalité

JUGEMENT REGRESSION - R² 5 régressions a: régression sans pbb: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratiquec: a priori une observation atypiqued: points alignés mais s’écartent différemment (variance erreurs pas constante)e: droite n’existe que par la dernière observation

Explication de la consommation de « fuel » On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs : La température moyenne sur un mois est une explication de la consommation L ’épaisseur de l ’isolation en est un autre REGRESSION LINEAIRE MULTIPLE (MLR) Gallons/Month Avrg. Temp (oF) Insulation (Inches) 275.30 40.00 3.00 363.80 27.00 3.00 164.30 40.00 10.00 40.80 73.00 6.00 94.30 64.00 6.00 230.90 34.00 6.00 366.70 9.00 6.00 300.60 8.00 10.00 237.80 23.00 10.00 121.40 63.00 3.00 31.40 65.00 10.00 203.50 41.00 6.00 441.10 21.00 3.00 323.00 38.00 3.00 52.50 58.00 10.00

REGRESSION LINEAIRE MULTIPLE (MLR) Un modèle de régression linéaire Influence de l ’isolation Observation i de la consommation mensuelle Terme constant Influence de la température Erreur aléatoire

REGRESSION LINEAIRE MULTIPLE (MLR) n observations yi p variables xj continues n > p Modèle fuel : n=15 p=2 Pour chaque observation : terme d’erreur non observé Coefficients inconnus

Décomposition de la variance et tests

COEFFICIENT DE DETERMINATION - R² • R2 coefficient de détermination ou pourcentage de variance expliquée par la régression Propriétés • Permet de juger de la qualité de la régression • Idéal R² = 1 • Mauvaise régression: R² = 0 • Si p augmente R² il existe R² ajusté > Quand p=1 R² = r² r : coefficient de corrélation linéaire

TEST DE L’EXISTENCE DU MODELE F Loi de Fisher à (p,n-p-1 )degrés de liberté : valeur f ayant la probabilité 0.05 d'être dépassée.

EXEMPLE de MLR reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.095238 2.491482 11.277 0.000352 *** eng 0.038095 0.005832 6.532 0.002838 ** pluie 0.833333 0.154303 5.401 0.005690 ** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 2.315 on 4 degrees of freedom Multiple R-Squared: 0.9814, Adjusted R-squared: 0.972 F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472 p-value

REGRESSION MLR cas multicolinéarité Exemple de traitement y X quantité de :V1 : tricalcium aluminateV2 : tricalcium silicateV3 : tetracalcium alumino ferriteV4 : dicalcium silicateCAL: calories par gramme de ciment

REGRESSION MLR Matrice de corrélation

REGRESSION MLR Résultats de la régression MLR Estimate Std. Error t value Pr(>|t|) (Intercept) 63.4888 70.0031 0.907 0.3909 V1 1.5494 0.7440 2.082 0.0709 V2 0.4960 0.7231 0.686 0 0.5121 V3 0.1004 0.7540 0.133 0.8974 V4 -0.1572 0.7084 -0.222 0.8299 Residual standard error: 2.444 on 8 degrees of freedom Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 F-statistic: 111.7 on 4 and 8 DF, p-value: 4.721e-07 Au risque de 5% aucun coefficient n’est significatif que faire????

REGRESSION SUR COMPOSANTES PRINCIPALES On fait une ACPnormée sur le tableau X donc sans la variable CAL • ACP sur le tableau X comprenant les variables V1 V2 V3 V4 • Valeur propres • [1] 2.235 1.576 0.186 0.001 • Proportion of Variance 0.558 0.394 0.0466 0.0004 • Cumulative Proportion 0.558926 0.9529425 0.99959406 1.0000000000 • Loadings (vecteurs propres): • C1 C2 C3 C4 • v1 -0.476 0.509 0.676 0.241v2 -0.564 -0.414 -0.314 0.642 • v3 0.394 -0.605 0.638 0.268 • v4 0.548 0.451 -0.195 0.677 • C1= - 0.476 v1 – 0.564 v2 + 0.394 v3 + 0.548 v4C2= 0.509 v1 – 0.414 v2 - 0.605 v3 + 0.451 v4 • C3= 0.676 v1 – 0.314 v2 + 0.638 v3 - 0.195 v4 • C4= 0.241 v1 + 0.642 v2 + 0.268 v3 + 0.677 v4 U = Combinaisons linéaires

REGRESSION SUR COMPOSANTES PRINCIPALES ACP sur X MLR y X C SCORES C1 C2 C3 C4 1 -1.4672378 -1.9030358 -0.53000037 0.038529908 2 -2.1358287 -0.2383536 -0.29018640 -0.029832930 3 1.1298705 -0.1838772 -0.01071259 -0.093700786 4 -0.6598954 -1.5767743 0.17920354 -0.033116396 5 0.3587645 -0.4835379 -0.74012232 0.019187145 6 0.9666396 -0.1699440 0.08570243 -0.012167032 7 0.9307051 2.1348166 -0.17298595 0.008295395 8 -2.2321379 0.6916707 0.45971967 0.022605633 9 -0.3515156 1.4322451 -0.03156437 -0.044987631 10 1.6625430 -1.8280967 0.85119311 0.019836723 11 -1.6401799 1.2951128 0.49417844 0.031388975 12 1.6925940 0.3922488 -0.01980997 0.037185301 13 1.7456786 0.4375254 -0.27461537 0.036775709

REGRESSION SUR COMPOSANTES PRINCIPALES Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 95.4000 0.6430 148.373 < e-10 *** C1 9.8791 0.4476 22.072 3.8e-09 *** C2 0.1327 0.5331 0.249 0.8091 C3 4.6539 1.5492 3.004 0.0149 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.318 on 9 degrees of freedom Multiple R-Squared: 0.9822, Adjusted R-squared: 0.9763 F-statistic: 165.4 on 3 and 9 DF, p-value: 3.45e-08 CAL = 95.4 + 9.88 C1 + 0.13 C2 +4.65 C3 On repasse aux variables initiales: CAL = 95.4 + 7.78 V1 + 4.16 V2 + -0.85 V3 – 6.38 V4

REGRESSION PLS • Méthode plus récente • Partial Least Square • Proche de la régression sur composantes principales RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

REGRESSION PLS et PCR RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire.Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales. RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y). PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

REGRESSION PLS • Notion de covariance : Cov<0 Cov>0 Cov0

Notion de covariance (bis) : Cov(x,y) = s(x) s(y) r(x,y) REGRESSION PLS x ||x|| s(x) Dans Rn cos(x,y) = r(x,y) ||y|| s(y) y xTycov(x,y)

Comment ça marche : Cherche les combinaisons linéaires u de X, telles que : Cov(Xu,y) maximale Une régression est ensuite calculée entre les variables latentes de X et y REGRESSION PLS

v633 v649 v666 v683 v700 v716 v733ytep 1 0.70 0.94 1.48 1.40 0.31 0.06 0.06 87.37 2 1.93 2.47 3.49 3.14 0.90 0.24 0.12 87.16 3 1.27 1.66 2.45 2.21 0.54 0.13 0.08 87.57 4 1.07 1.22 1.71 1.51 0.36 0.10 0.10 87.16 5 0.49 0.64 1.00 0.90 0.15 0.01 0.04 85.99 6 0.59 0.83 1.30 1.15 0.19 0.01 0.04 86.41 7 0.43 0.46 0.69 0.65 0.14 0.04 0.07 80.75 8 0.53 0.48 0.67 0.64 0.14 0.03 0.06 78.74 9 1.25 1.30 1.67 1.62 0.65 0.33 0.25 79.26 10 3.18 3.81 4.66 4.18 1.60 0.60 0.30 85.56 11 1.36 1.51 2.04 1.94 0.66 0.30 0.23 82.35 12 2.20 2.68 3.54 3.25 1.15 0.45 0.27 83.08 13 0.46 0.60 1.09 1.10 0.23 0.04 0.06 81.13 14 1.96 2.39 3.41 3.20 0.95 0.24 0.11 79.97 15 0.56 0.77 1.33 1.31 0.29 0.05 0.06 82.44 X : absorbances aux longueurs d'onde (nm) 633 649 666 683 700 716 733, mesurées sur des pommes ytep (dernière colonne) : teneur en eau des pommes On cherche à prédire ytep en fonction de X

Estimate Std. Error t value Pr(>|t|) (Intercept) 77.726 5.987 12.982 3.74e-06 *** v633 -32.425 12.013 -2.699 0.0307 * v649 78.507 35.796 2.193 0.0644 . v666 -53.496 45.350 -1.180 0.2767 v683 45.365 38.510 1.178 0.2773 v700 -103.69 55.062 -1.883 0.1017 v716 50.320 127.846 0.394 0.7056 v733 22.613 114.740 0.197 0.8494 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.509 on 7 degrees of freedom Multiple R-Squared: 0.8906, Adjusted R-squared: 0.7813 F-statistic: 8.143 on 7 and 7 DF, p-value: 0.006459

Matrice de corrélation des prédicteurs v633 v649 v666 v683 v700 v716 v733 v633 1.00 0.99 0.98 0.97 0.99 0.93 0.79 v649 0.99 1.00 0.99 0.99 0.98 0.90 0.74 V666 0.98 0.99 1.00 1.00 0.97 0.86 0.68 v683 0.97 0.99 1.00 1.00 0.97 0.86 0.69 v700 0.99 0.98 0.97 0.97 1.00 0.96 0.83 v716 0.93 0.90 0.86 0.86 0.96 1.00 0.96 v733 0.79 0.74 0.68 0.69 0.83 0.96 1.00 Corrélations très élevées !!

Méthodes de régression

Méthodes de régression

Presentation Transcript

La r gression lin aire

La r gression logistique

Universit de Sfax, FSEG M2R ROGP M1R Ing nierie de l Optimisation et de l Aide la D cision

Veille informationnelle

Pr sentation des nouveaux programmes d histoire-g ographie

Diagnostic et suivi virologique de l infection par le VIH

M thodes de programmation

Atelier de Formation sur les m thodes de l valuation des cosyst mes pour le mill naire EM

M thodes d tudes des acides nucl iques

MultiCom et la Conception participative

Traitements Algorithmiques

ComitÃ© dâ€™information sur le rÃ©gime de retraite (CIRR)

- Etude - Sciences et Technologies de la Gestion

points noirs

Gagner Au Loto, Arrondir Ses Fin De Mois, Comment Faire De Largent, Jeux Pour Gagner, Gagner Loto

Comment Gagner Au Loto, Jeux Gagner Argent, Gagner 10000 Euros Par Mois, Gagnant Loterie

Pourquoi vous devriez le commerce dans Cryptocurrency?