1 / 43

LA RÉGRESSION MULTIPLE

LA RÉGRESSION MULTIPLE. Michel Tenenhaus. La régression multiple. Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1 ,…, X k. Cas Ventes : les données. X 8. X 1. X 2. X 3. X 4. X 5. X 6. X 7. Y. !. !. Cas Ventes. Variable à expliquer :

zoltin
Download Presentation

LA RÉGRESSION MULTIPLE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LA RÉGRESSION MULTIPLE Michel Tenenhaus

  2. La régression multiple • Une variable à expliquer numérique Y • k variables explicatives numériques ou binaires X1,…, Xk

  3. Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

  4. Cas Ventes • Variable à expliquer : Y = Ventes semestrielles (KF) • Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

  5. Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

  6. Cas Ventes : Graphiques des liaisons deux à deux

  7. Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

  8. Cas Ventes : choix de modèles • Quel est le meilleur modèle à une variable? • Quel est le meilleur modèle à deux variables?

  9. 1. Les données • Y = Variable à expliquer numérique (ou dépendante) • X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

  10. 2. Le modèle • Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). • Les i sont indépendants les uns des autres.

  11. 3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk :R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

  12. Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y.

  13. 4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .

  14. Résultats SPSS

  15. Résultats SPSS

  16. Graphique SPSS

  17. Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

  18. 5. Estimation de l’écart-type  du terme résiduel Estimation de 2 : Estimation de  :

  19. Résultats SPSS

  20. Résidu standardisé 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec  N(0, ) Un résidu ei est considéré comme trop important si Loi de  95% ou 1.96 -1.96 0

  21. A) Formule de décomposition B) R2 = Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle C) R = 7. Coefficient de détermination R2 et corrélation multiple R

  22. 8. La liaison globale entre Y et X1,…,Xkest-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

  23. Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0  Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

  24. Variance Inflation Factor 9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Fractile d’une loi de Student

  25. Indiquer les variables significatives du modèle ( = 0.05)

  26. Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| 0 t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

  27. Mesure de la multi-colinéarité :Tolérance et VIF • Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. • VIF = Variance Inflation Factor = 1 / Tolérance • Il est préférable d’observer un VIF inférieur à 3.

  28. Mesure de la multi-colinéarité :Tolérance et VIF

  29. La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

  30. 10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

  31. Cas Ventes Régression pas à pas descendante • Compléter le tableau suivant : • Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Modèle Variable la moins variables détermination Ecart-type significative satisfaisant 2 explicatives R résiduel avec NS ³ 0.1 8 M

  32. Etape 1 Variable enlevée : Total publicité de la branche

  33. Etape 2 Variable enlevée : Budget de recherche

  34. Etape 3 Variable enlevée : Frais de ventes

  35. Etape 4 Variable enlevée : Remises aux grossistes

  36. Etape 5 Toutes les variable sont significatives au seuil .10

  37. Analyse des résidusdu modèle simplifié

  38. 11. Comparaison de modèles Modèle complet Modèle simplifié

  39. Test sur le modèle complet Modèle complet Test : H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

  40. 12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

  41. RésultatsSPSS pour le modèle simplifié

  42. Graphique SPSS 8

  43. Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

More Related