1 / 49

LA RÉGRESSION MULTIPLE

LA RÉGRESSION MULTIPLE. Michel Tenenhaus. La régression multiple. Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1 ,…, X k. Cas Ventes : les données. X 8. X 1. X 2. X 3. X 4. X 5. X 6. X 7. Y. !. !. Cas Ventes. Variable à expliquer :

azia
Download Presentation

LA RÉGRESSION MULTIPLE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LA RÉGRESSION MULTIPLE Michel Tenenhaus

  2. La régression multiple • Une variable à expliquer numérique Y • k variables explicatives numériques ou binaires X1,…, Xk

  3. Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

  4. Cas Ventes • Variable à expliquer : Y = Ventes semestrielles (KF) • Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

  5. Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

  6. Cas Ventes : Graphiques des liaisons deux à deux

  7. Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

  8. Cas Ventes : choix de modèles • Quel est le meilleur modèle à une variable? • Quel est le meilleur modèle à deux variables?

  9. 1. Les données • Y = Variable à expliquer numérique (ou dépendante) • X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

  10. 2. Le modèle • Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). • Les i sont indépendants les uns des autres.

  11. i Zone de probabilité à 95% i + 2 i - 2 Ventes yi = 0 +1*MTi + 2*PUBi + i Un outlier   yi  i      x1i x2i MT PUB

  12. 3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk :R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

  13. Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).

  14. 4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .

  15. Résultats SPSS

  16. Résultats SPSS

  17. Graphique SPSS

  18. Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

  19. 5. Estimation de l’écart-type  du terme résiduel Estimation de 2 : Estimation de  :

  20. Résultats SPSS

  21. Résidu standardisé 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec  N(0, ) Un résidu ei est considéré comme trop important si Loi de  95% ou 1.96 -1.96 0

  22. A) Formule de décomposition B) R2 = Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle C) R = 7. Coefficient de détermination R2 et corrélation multiple R

  23. Visualisation de la qualité de la régression multiple

  24. 8. La liaison globale entre Y et X1,…,Xkest-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

  25. Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0  Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

  26. Variance Inflation Factor 9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Fractile d’une loi de Student

  27. Indiquer les variables significatives du modèle ( = 0.05)

  28. Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| 0 t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

  29. Mesure de la multi-colinéarité :Tolérance et VIF • Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. • VIF = Variance Inflation Factor = 1 / Tolérance • Il est préférable d’observer un VIF inférieur à 3.

  30. Mesure de la multi-colinéarité :Tolérance et VIF

  31. La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

  32. 10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

  33. Cas Ventes Régression pas à pas descendante • Compléter le tableau suivant : • Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Modèle Variable la moins variables détermination Ecart-type significative satisfaisant 2 explicatives R résiduel avec NS ³ 0.1 8 M

  34. Etape 1 Variable enlevée : Total publicité de la branche

  35. Etape 2 Variable enlevée : Budget de recherche

  36. Etape 3 Variable enlevée : Frais de ventes

  37. Etape 4 Variable enlevée : Remises aux grossistes

  38. Etape 5 Toutes les variable sont significatives au seuil .10

  39. Analyse des résidusdu modèle simplifié

  40. 11. Comparaison de modèles Modèle complet Modèle simplifié

  41. Test sur le modèle complet Modèle complet Test : H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

  42. 12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

  43. RésultatsSPSS pour le modèle simplifié

  44. Graphique SPSS 8

  45. Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

  46. 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

  47. 13. Intervalle de confiance de E(Y) Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :

  48. RésultatsSPSS pour le modèle simplifié

  49. Graphique SPSS Intervalle de confiance de E(Y) à 95%

More Related