480 likes | 994 Views
Plan du cours. Introduction Statistique descriptive Echantillonnage Calcul des probabilités et variables aléatoires Inférence statistique Estimation Tests d’hypothèses Régression linéaire. Introduction. Objectifs
E N D
Plan du cours • Introduction • Statistique descriptive • Echantillonnage • Calcul des probabilités et variables aléatoires • Inférence statistique • Estimation • Tests d’hypothèses • Régression linéaire
Introduction • Objectifs • Expliquer : Mettre en relation une variable dépendante et plusieurs variables explicatives. • Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives. • Modèle linéaire • Généralisation de la régression simple (une seule variable explicative).
Modèle • y : variable dépendante (à expliquer, endogène), • x1,…, xp : variables indépendantes (explicatives, exogènes), • e : terme d’erreur, perturbation. • Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations :
Modèle • y : variable dépendante (à expliquer, endogène), • x1,…, xp : variables indépendantes (explicatives, exogènes), • e : terme d’erreur, perturbation. • Estimer les paramètres b1,…,bp à partir d’un échantillon de n observations :
Ecriture matricielle Avec :
Hypothèses • H1: • H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur e. • H3: Homoscédasticité :
Exemples • MBA • La Quinta
Exemples • Régression simple • Régression polynomiale
Estimation des paramètres • Principe des moindres carrés (MC) : • Sous forme matricielle :
Valeur observée Valeur ajustée Définitions • Résidus • Estimateur de s2
Coefficient de détermination • Comparaison de 2 modèles : • Qualité du modèle M1 par rapport à M2 ?
Coefficient de détermination • Ecart-type du terme d’erreur :
Coefficient de détermination • Mesure de qualité de M1 par rapport à M2 : • Coefficient de détermination corrigé(« adjusted R-square »)
Coefficient de détermination • Interprétation : qualité M1 qualité M2 qualité M1 >> qualité M2
Coefficient de détermination • Autre mesure : • Interprétation plus intuitive :
Coefficient de détermination • Problème : • R2 augmente lorsque l’on ajoute une variable, même non pertinente, dans le modèle. • Tableau d’analyse de variance (ANOVA) :
Prévision • Prévision de la variable endogène y pour un jeu de valeurs x0 : • Modèle linéaire : • Erreur de prévision :
Erreur de prévision • Moyenne : • Variance :
Intervalle de prévision • A 95%, approximativement : • Pour la moyenne de y0, à 95% :
Exemple – La Quinta Pas rentable !
Tests et intervalles de confiance • Hypothèse supplémentaire : • Pour un paramètre :
Tests et intervalles de confiance • Test de nullité de bj : • Intervalle de confiance pour bj :
Tests et intervalles de confiance • P-value :
Tests et intervalles de confiance • Test de l’ensemble du modèle : • Test en F (ANOVA) :
Modélisation • Vérification des hypothèses de base • Analyse des résidus • Analyse des valeurs extrêmes • Sélection des variables explicatives • Comparaison de modèles • Méthodes de sélection
Analyse des résidus • Idée : les résidus devraient ne présenter aucune structure particulière. • Graphiques : • Normalité des résidus, • Résidus en fonction des valeurs prédites, • Résidus en fonction des variables explicatives, • Résidus en fonction du temps (séries chronologiques).
Analyse des résidus • Normalité du terme d’erreur ? • Représentation graphique de la distribution des résidus :
Analyse des résidus • Linéarité de la relation entre y et les variables explicatives ? • Résidus en fonction des valeurs prédites, • Résidus en fonction des variables explicatives.
Analyse des résidus • Homoscédasticité ? • Résidus en fonction des valeurs prédites. • Remèdes : • Changement de variable (log y, …), • Moindres carrés pondérés… Ok : homoscédasticité Pas Ok : hétéroscédasticité
Analyse des résidus • Corrélation entre erreurs ? • Pour une série chronologique, autocorrélation d’ordre 1 : • Statistique de Durbin-Watson :
Analyse des résidus • En cas d’autocorrélation : • Introduire yt-1 comme variable explicative (autorégression), • Prendre les différences : • Modéliser le terme d’erreur :
Valeurs extrêmes • Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite… • Erreur d’encodage ? • Observation à ne pas inclure dans l’échantillon ? • Cas extrême mais normal ? • Identification : • Graphiquement, • A l’aide des résidus.
Valeurs extrêmes vs influentes • Valeurs influentes : ont une grande influence sur l’estimation des paramètres. • Exemples : outlier Avec et sans valeur influente
Sélection des variables • Variables explicatives doivent être pertinentes. • Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.
Exemple 3 – Maisons • Un agent immobilier veut essayer de prédire le prix de vente d’une maison. • Variables explicatives potentielles : • Surface habitable, • Nombre de chambres, • Superficie du terrain. • Données historiques sur 100 maisons vendues.
Sélection de variables • Variables explicatives pertinentes : • Tests individuels sur les paramètres b. • Attention à la multicolinéarité. • Principe de parcimonie : • Réduire le nombre de variables explicatives le plus possible (interprétation du modèle). • Méthodes de sélection.
Méthodes de sélection • « Backward elimination » • Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0. • « Forward selection » • Introduire progressivement les variables explicatives les plus corrélées (corrélation partielle significative) avec y. • « Stepwise selection » • Méthode « pas à pas » : combine « forward » et « backward ». • Exemple : La Quinta