1 / 43

Plan du cours

Plan du cours. Introduction Statistique descriptive Echantillonnage Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire. Introduction. Objectifs

nili
Download Presentation

Plan du cours

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Plan du cours • Introduction • Statistique descriptive • Echantillonnage • Calcul des probabilités et variables aléatoires • Inférence statistique • Estimation • Tests d’hypothèses • Régression linéaire

  2. Introduction • Objectifs • Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. • Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. • Modèle linéaire • Généralisation de la régression simple (une seule variable explicative).

  3. Modèle • y : variable dépendante (à expliquer, endogène), • x1,…, xp : variables indépendantes (explicatives, exogènes), • e : terme d’erreur, perturbation. • Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations :

  4. Exemple 1 – MBA

  5. Exemple 2 – La Quinta

  6. Exemple 2 (suite)

  7. Modèle • y : variable dépendante (à expliquer, endogène), • x1,…, xp : variables indépendantes (explicatives, exogènes), • e : terme d’erreur, perturbation. • Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations :

  8. Ecriture matricielle Avec :

  9. Hypothèses • H1: • H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. • H3: Homoscédasticité :

  10. Exemples • MBA • La Quinta

  11. Exemples • Régression simple • Régression polynomiale

  12. Variables indicatrices (0-1)

  13. Estimation des paramètres • Principe des moindres carrés (MC) : • Sous forme matricielle :

  14. Estimation des paramètres

  15. Valeur observée Valeur ajustée Définitions • Résidus • Estimateur de s2

  16. Coefficient de détermination • Comparaison de 2 modèles : • Qualité du modèle M1 par rapport à M2 ?

  17. Coefficient de détermination • Ecart-type du terme d’erreur :

  18. Coefficient de détermination • Mesure de qualité de M1 par rapport à M2 : • Coefficient de détermination corrigé(« adjusted R-square »)

  19. Coefficient de détermination • Interprétation : qualité M1  qualité M2 qualité M1 >> qualité M2

  20. Coefficient de détermination • Autre mesure : • Interprétation plus intuitive :

  21. Coefficient de détermination • Problème : • R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. • Tableau d’analyse de variance (ANOVA) :

  22. Prévision • Prévision de la variable endogène y pour un jeu de valeurs x0 : • Modèle linéaire : • Erreur de prévision :

  23. Erreur de prévision • Moyenne : • Variance :

  24. Intervalle de prévision • A 95%, approximativement : • Pour la moyenne de y0, à 95% :

  25. Exemple – La Quinta  Pas rentable !

  26. Tests et intervalles de confiance • Hypothèse supplémentaire : • Pour un paramètre :

  27. Tests et intervalles de confiance • Test de nullité de bj : • Intervalle de confiance pour bj :

  28. Tests et intervalles de confiance • P-value :

  29. Tests et intervalles de confiance • Test de l’ensemble du modèle : • Test en F (ANOVA) :

  30. Modélisation • Vérification des hypothèses de base • Analyse des résidus • Analyse des valeurs extrêmes • Sélection des variables explicatives • Comparaison de modèles • Méthodes de sélection

  31. Analyse des résidus • Idée : les résidus devraient ne présenter aucune structure particulière. • Graphiques : • Normalité des résidus, • Résidus en fonction des valeurs prédites, • Résidus en fonction des variables explicatives, • Résidus en fonction du temps (séries chronologiques).

  32. Analyse des résidus • Normalité du terme d’erreur ? • Représentation graphique de la distribution des résidus :

  33. Analyse des résidus • Linéarité de la relation entre y et les variables explicatives ? • Résidus en fonction des valeurs prédites, • Résidus en fonction des variables explicatives.

  34. Analyse des résidus • Homoscédasticité ? • Résidus en fonction des valeurs prédites. • Remèdes : • Changement de variable (log y, …), • Moindres carrés pondérés… Ok : homoscédasticité Pas Ok : hétéroscédasticité

  35. Analyse des résidus • Corrélation entre erreurs ? • Pour une série chronologique, autocorrélation d’ordre 1 : • Statistique de Durbin-Watson :

  36. Analyse des résidus • En cas d’autocorrélation : • Introduire yt-1 comme variable explicative (autorégression), • Prendre les différences : • Modéliser le terme d’erreur :

  37. Valeurs extrêmes • Valeur extrême (outlier) = observation qui ne suit pas le modèle  valeur très grande ou très petite… • Erreur d’encodage ? • Observation à ne pas inclure dans l’échantillon ? • Cas extrême mais normal ? • Identification : • Graphiquement, • A l’aide des résidus.

  38. Valeurs extrêmes vs influentes • Valeurs influentes : ont une grande influence sur l’estimation des paramètres. • Exemples : outlier Avec et sans valeur influente

  39. Exemples d’Ascombe

  40. Sélection des variables • Variables explicatives doivent être pertinentes. • Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.

  41. Exemple 3 – Maisons • Un agent immobilier veut essayer de prédire le prix de vente d’une maison. • Variables explicatives potentielles : • Surface habitable, • Nombre de chambres, • Superficie du terrain. • Données historiques sur 100 maisons vendues.

  42. Sélection de variables • Variables explicatives pertinentes : • Tests individuels sur les paramètres b. • Attention à la multicolinéarité. • Principe de parcimonie : • Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). • Méthodes de sélection.

  43. Méthodes de sélection • « Backward elimination » • Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. • « Forward selection » • Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. • « Stepwise selection » • Méthode « pas à pas » : combine « forward » et « backward ». • Exemple : La Quinta

More Related