Régression linéaire multiple : hypothèses & tests. Partie 3.

Régression linéaire multiple :hypothèses & tests. Partie 3.

R2 ajusté Rappel : Le R2 mesure la proportion de la variation de Y qui est expliquée par les régresseurs X1 … Xk. L’inconvénient du R2 est qu’il augmente mécaniquement avec le nombre de variables explicatives, ce qui ne permet pas de comparer directement la performance de deux modèles (avec une même variable expliquée) dès lors qu’ils ne possèdent un même nombre de variables explicatives. En effet, le R2 ne « pénalise » pas les modèles les plus complexes, c’est à dire ceux qui possèdent un grand nombre de régresseurs. Toute chose égale par ailleurs (ceterisparibus), les modèles les plus simples sont meilleurs.

R2 ajusté On définit ainsi le R2 ajusté en « pénalisant » l’ajout de variables explicatives. L’avantage du R2 ajusté sur le R2 est que le R2 ajusté peut voir sa valeur augmenter ou diminuer lorsqu’on ajoute un régresseur au modèle. On peut ainsi comparer les performances respectives de deux modèles en utilisant le R2 ajusté. L’inconvénient du R2 ajusté est qu’il ne permet pas de comparer deux modèles si leurs variables explicatives sont différentes. Autrement dit, pour comparer deux modèles via le R2 ajusté, il faut que l’un des deux modèles contienne toutes les variables explicatives du second modèle ainsi qu’un certain nombre de variables en plus.

Hypothèses Rappel hypothèse #1 : Linéarité du modèle en ses paramètres hypothèse #2 : Echantillon aléatoire hypothèse #3: Moyenne conditionnelle nulle hypothèse #4 : Pas de colinéarité parfaite hypothèse #5: Homoscédasticité Comment vérifier que toutes ces hypothèses sont respectées?

Tester l’hétéroscédasticité Rappel : hypothèse #5: Homoscédasticité Quelque soient les caractéristiques de l’échantillon considéré, la variance du terme d’erreur reste constante. Elle ne dépend donc pas des X1, …Xk. Si cette hypothèse n’est pas respectée, on parle alors d’hétéroscédasticité. L’hétéroscédasticité n’affecte pas le biais des estimateurs des Bj. En revanche, la variance de ces estimateurs n’est plus minimale parmi la classe des estimateurs linéaires non biaisés. Autrement dit, l’hétéroscédasticité affecte la précision des estimateurs des Bj. La formulation générale de l’hétéroscédascité est la suivante (la variance du terme d’erreur dépend des caractéristiques X1, …Xk de l’échantillon considéré): Ainsi, la valeur de la variance des estimateurs change et ce faisant, la valeur des standard errors aussi (celles que l’on peut voir sur les sorties SAS). Ceci implique que les tests qui ont recours aux t et F statistiques et aux intervalles de confiance ne sont plus valides.

Tester l’hétéroscédasticité Le test de Breusch-Pagan& le test de White. L’idée générale de ces tests est de savoir si le terme d’erreur u dépend des variables explicatives X1 … Xk. L’encadré ci-dessous ajoute quelques précisons. L’hypothèse nulle de ces deux tests est celle d’homoscédasticité. Si le test est rejeté, c’est que l’on est en présence d’hétéroscédascité

Tests Comment vérifier que les autres hypothèses sont bien respectées? Les hypothèses 1 et 4 sont liées à la spécification du modèle. Pour l’H. 4, on peut étudier l’injectivité de la matrice XtX du modèle … L’hypothèse 2 est liée aux conditions de recueils des informations. Pour l’hypothèse 3, on est souvent amener à alléger cette hypothèse …

Régression linéaire multiple : hypothèses & tests. Partie 3.