LA RÉGRESSION MULTIPLE

LA RÉGRESSION MULTIPLE Michel Tenenhaus

La régression multiple • Une variable à expliquer numérique Y • k variables explicatives numériques ou binaires X1,…, Xk

Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

Cas Ventes • Variable à expliquer : Y = Ventes semestrielles (KF) • Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

Cas Ventes : Graphiques des liaisons deux à deux

Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

Cas Ventes : choix de modèles • Quel est le meilleur modèle à une variable? • Quel est le meilleur modèle à deux variables?

1. Les données • Y = Variable à expliquer numérique (ou dépendante) • X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

2. Le modèle • Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). • Les i sont indépendants les uns des autres.

i Zone de probabilité à 95% i + 2 i - 2 Ventes yi = 0 +1*MTi + 2*PUBi + i Un outlier   yi  i      x1i x2i MT PUB

3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk :R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).

4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .

Résultats SPSS

Graphique SPSS

Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

5. Estimation de l’écart-type  du terme résiduel Estimation de 2 : Estimation de  :

Résultats SPSS

Résidu standardisé 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec  N(0, ) Un résidu ei est considéré comme trop important si Loi de  95% ou 1.96 -1.96 0

A) Formule de décomposition B) R2 = Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle C) R = 7. Coefficient de détermination R2 et corrélation multiple R

Visualisation de la qualité de la régression multiple

8. La liaison globale entre Y et X1,…,Xkest-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0  Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

Variance Inflation Factor 9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Fractile d’une loi de Student

Indiquer les variables significatives du modèle ( = 0.05)

Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| 0 t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

Mesure de la multi-colinéarité :Tolérance et VIF • Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. • VIF = Variance Inflation Factor = 1 / Tolérance • Il est préférable d’observer un VIF inférieur à 3.

Mesure de la multi-colinéarité :Tolérance et VIF

La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

Cas Ventes Régression pas à pas descendante • Compléter le tableau suivant : • Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Modèle Variable la moins variables détermination Ecart-type significative satisfaisant 2 explicatives R résiduel avec NS ³ 0.1 8 M

Etape 1 Variable enlevée : Total publicité de la branche

Etape 2 Variable enlevée : Budget de recherche

Etape 3 Variable enlevée : Frais de ventes

Etape 4 Variable enlevée : Remises aux grossistes

Etape 5 Toutes les variable sont significatives au seuil .10

Analyse des résidusdu modèle simplifié

11. Comparaison de modèles Modèle complet Modèle simplifié

Test sur le modèle complet Modèle complet Test : H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

RésultatsSPSS pour le modèle simplifié

Graphique SPSS 8

Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

13. Intervalle de confiance de E(Y) Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :

RésultatsSPSS pour le modèle simplifié

Graphique SPSS Intervalle de confiance de E(Y) à 95%

LA RÉGRESSION MULTIPLE