1.02k likes | 1.38k Views
Les Modèles de Choix Qualitatifs. Master Economie – Finance Université de Limoges. Ph. Rous – année universitaire 2007 - 2008. La Problématique.
E N D
Les Modèles de Choix Qualitatifs Master Economie – Finance Université de Limoges Ph. Rous – année universitaire 2007 - 2008
La Problématique La variable expliquée Y ne peut prendre qu’un nombre limité de valeurs. Le cas typique est celui pour lequel Y est susceptible de prendre deux valeurs (0 ou 1), permettant ainsi de rendre compte de l’occurrence ou non d’un événement. Exemple : Yi = 1 si l’individu i est actuellement au chômage = 0 si cet individu bénéficie actuellement d’un emploi
On veut expliquer pourquoi cet événement se produit (ou, au contraire, ne se produit pas). A cet effet, on entend croiser les réalisations de la variable binaire Y avec celles d’une certain nombre de variables explicatives Xj dont les réalisations peuvent être indifféremment de natures qualitative ou quantitative. Dans ce contexte, et dans le prolongement des modèles « standards » pour lesquels les réalisations de Y sont continues, on peut être tenté de postuler l’existence d’un lien de type linéaire entre les réalisations des Xj et celles de Y. On va voir que cette façon de concevoir la relation X Y pose de sérieuses difficultés de telle sorte que cette relation devra être spécifiée sous une forme moins conventionnelle qui donne naissance à (notamment) deux types de modélisations : les modèles Logit et Probit
Ces modèles (non linéaires) présentent deux points communs : • l’interprétation des coefficients n’est pas aussi limpide que ce qu’elle pouvait être dans le cas d’un modèle linéaire • l’estimation elle-même de ces modèles ne se fait pas sans quelques difficultés
Le Modèle Linéaire • une idée simple • interprétation et faiblesses du modèle
Une idée simple La première idée qui vient à l’esprit pour décrire le lien qui pourrait exister entre X et Y consiste à postuler l’existence d’une relation linéaire entre ces deux variables : Yi = a + b Xi + ei Attention : si, dans le cadre du modèle traditionnel, il est possible d’admettre que les erreurs présentent un certain nombre de bonnes propriétés (homoscédasticité notamment) on va voir que, dans ce nouveau contexte, la vérification de ces propriétés pose problème.
Le Modèle Linéaire : une interprétation en termes de probabilité de l’occurrence d’un événement • On suppose que E ei = 0 pour tout i et on note : • Pi la probabilité de réalisation de l’événement {Yi = 1} • 1- Pi la probabilité de réalisation de l’événement {Yi = 0} • conditionnellement à la connaissance de la valeur prise par Xi • Pi = Prob{Yi = 1 | Xi} On sait par ailleurs que l’espérance conditionnelle de Yi liée par Xi est la somme des modalités possibles de Yi pondérées par leurs probabilités de réalisation : E( Yi | Xi ) = 1 Pi + 0 (1-Pi) = Pi
Or, sous l’hypothèse E ei = 0 on a aussi : E(Yi | Xi) = a + b Xi On voit par conséquent que : Pi = a + b Xi et b pourrait être interprété comme l‘effet marginal d‘une variation de X sur la probabilité de l‘événement Y = 1 ... ce qui pose au moins deux problèmes
1/ la question des probabilités calculées Munis des coefficients estimés, il est théoriquement possible de calculer, pour un individu i donné, la probabilité pour qu’il présente la modalité Yi = 1 : Mais rien ne garantit que cette probabilité calculée prenne toujours ses valeurs dans [0, 1] probas en folie.prg
2/ La question de l’hétéroscédasticité des erreurs En partant du modèle Yi = a + b Xi + ei on peut aussi écrire que ei = Yi - a - b Xi • On en déduit que ei n’est susceptible de prendre que 2 valeurs : • ei = 1- a - b Xi avec une probabilité Pi • ei = - a - b Xi avec une probabilité 1 – Pi Le caractère gaussien de l’erreur est donc difficilement soutenable !
Bien plus : l’erreur est, par construction, hétéroscédastique. Var(ei ) = E(ei2) = (1 - a - b Xi)2 (a + b Xi) + (- a - b Xi)2 (1 - a - b Xi) = (1 - a - b Xi)2 (a + b Xi) + (a + b Xi)2 (1 - a - b Xi) = (1 - a - b Xi) (a + b Xi) [ (1 - a - b Xi) + (a + b Xi)] = (1 - a - b Xi) (a + b Xi) La variance de l’erreur varie en fonction des valeurs prises par X : elle est hétéroscédastique
Modèles à probabilités non linéaires Présentation
Le risque d ’avoir des probabilités calculées négatives est écarté en modélisant la relation X - Y sous la forme : Yi = F(a+bXi) + ei où F(.) est une application dont les réalisations s ’inscrivent obligatoirement entre 0 et 1. • Quoiqu ’il existe, virtuellement, une multitude fonctions répondant à ce critère, le choix de F(.) se porte le plus souvent sur deux types de fonctions : • la fonction de répartition de la loi normale • la fonction de répartition de la loi logistique
On suppose ici que Yi = F(a + bXi) + ei avec : Cette hypothèse de travail donne naissance au modèle PROBIT. Cas n° 1 : modèle Probit F(.) correspond à la la fonction de répartition de la loi normale Notez le caractère non linéaire de la relation X Y
Cas n° 2 : modèle LOGIT F(.) correspond à la la fonction de répartition de la loi logistique On suppose ici que Yi = F(a + bXi) + ei avec : Cette hypothèse de travail donne naissance au modèle LOGIT. ProbL_ProbN.prg
L ’interprétation des coefficients On a vu que, dans le cas du modèle à probabilité linéaire, la probabilité de l ’événement Yi = 1 est égale à : Pi = a + b Xi b peut alors être interprété comme l‘effet marginal d‘une variation de X sur la probabilité de l‘événement Y = 1 L ’interprétation des coefficients des modèles logit et probit est plus délicate...
Puisque, désormais, Yi = F (a + b Xi) + ei, l ’effet marginal d ’une variation de Xi sur la probabilité Pi que Yi soit égal à 1 est : • soit, • dans le cas probit : • dans le cas logit : Alors qu ’avec le modèle linéaire l ’effet marginal de X sur P est constant quel que soit X (et égal à b), cet effet marginal de X sur P varie désormais en fonction du point à partir duquel il est apprécié.
Interprétation des modèles logit et probit en termes de variable sous jacente
On suppose, selon cette aproche, que les valeurs prises par la (les) variable(s) explicative(s) déterminent (à un alea près) celles d ’une variable latente (ou sous-jacente) Yi* hélas inobservable qu ’on peut interpréter comme une propension à engendrer un événement de type Yi = 1 : Yi* = b1 + b2 X2i + ... + bk Xki + ei On observerait Yi = 1 dès que cette propension dépasserait un certain seuil g : Yi = 0 {Yi* = b1 + b2 X2i + ... + bk Xki + ei } < g Yi = 1 {Yi* = b1 + b2 X2i + ... + bk Xki + ei } > g
On en déduit que : Prob {Yi = 1} = Prob {Xib + ei > g} = Prob { ei > g - Xib} Prob {Yi = 0} = Prob {Xib + ei < g} = Prob { ei < g - Xib} • si on connaît la loi de ei on peut alors déterminer la probabilité de chacun des événements {Yi = 0} et {Yi = 1} connaissant • les valeurs prises par les variables explicatives • les valeurs des coefficients (qui doivent être estimés) Remarque : un coefficient bj positif signifie donc qu’un accroissement de Xj joue dans le sens d’une plus grande probabilité de {Y = 1}.
Pb n° 1 : le seuil ne peut être identifié Prob {Yi = 1} = Prob(Yi* > g) = Prob(b1 + b2 X2i + ... + bk Xki + ei > g) = Prob(ei > (g - b1) - b2 X2i - ... - bk Xki) La constante b1 et le seuil g ne peuvent être dissociés par la suite on fera « comme si » g = 0 • L’estimation des modèles Logit / Probit pose deux problèmes : • le seuil g qui détermine la modalité 0 ou 1 ne peut être estimé indépendamment de la constante • la variance de l’erreur e ne peut être estimée indépendamment des coefficients
Pb n° 2 : la variance de l’erreur ne peut être identifiée et, sous une hypothèse de symétrie de la fonction f(.) • il est impossible de dissocier s de bj ! En admettant que Yi = 1, la vraisemblance de la ie observation est :
Corollaire de ce résultat : • L’ordre de grandeur des coefficient n’a, en lui-même, que peu d ’importance. Seuls comptent : • le signe des coefficients • les valeurs relatives des coefficients
Estimation des coefficients : la vraisemblance (expression générale pour les deux modèles Logit / Probit) On suppose que les p premiers individus de l’échantillon présentent la modalité 1 et les N-p derniers la modalité 0. L = Prob{Y1 = 1 | X1, b} ... Prob{Yp = 1 | Xp, b} Prob{Yp+1 = 0 | Xp+1, b} ... Prob{YN = 0 | XN, b} On sait que : (si f(.) symétrique)
On en déduit : ou, de manière équivalente : ou même encore : si on prend soin de poser : di = + 1 si Yi = 1 di = - 1 si Yi = 0
Vraisemblance du modèle Probit On suppose ici que l’erreur est normalement distribuée et, puisque l’écart type s de l’erreur est indissociable des bj on fait « comme si » s était égal à 1. Sous ces hypothèses on montre facilement (cf. polycopié) que : avec : d = 1 si y = 1 d = -1 si y = 0 et que la vraisemblance de l’ensemble de l’échantillon est :
Munis des valeurs ainsi estimées des différents coefficients, la probabilité calculée de l’événement Yi = 1 conditionnelle aux valeurs prises par les Xji est : Les valeurs estimées des coefficients sont solutions du problème d’optimisation : Comme les conditions du premier ordre associées à ce problème ne prennent pas la forme d’un système d’équations linéaires on est contraint de rechercher une solution numérique (et non pas analytique) pour ce problème. On devra donc utiliser une algorithme d’optimisation numérique (Marquardt, Newton, QHC...)
Vraisemblance du modèle Logit On suppose ici que l’erreur est distribuée selon une loi logistique :
Dans ce contexte, on peut montrer que la vraisemblance et la Log – vraisemblance de l’échantillon sont respectivement : Ici encore les estimations des bj sont les solutions numériques du problème d’optimisation :
Modèle Logit La probabilité calculée de Yi = 1 est :
Peut-on comparer les estimations issues des modèles Logit et Probit ? • L’estimation des coefficients, dans le cas Probit, est réalisée sous l’hypothèse : s = 1 • Si e suit une loi logistique standard, sa variance est connue et obligatoirement égale à s = Les coefficients logit et probit ne peuvent être comparés qu’à la condition de prendre la précaution de prémultiplier les coefficients probit par p / 31/2 (ou de diviser les coefficients logit par p / 31/2 )
Conséquences d’une variation de Xj sur la probabilité de Yi = 1 Rappel : avec le modèle linéaire, le coefficient bj peut être interprété comme l’effet d’une variation unitaire de Xj sur la probabilité de Yi = 1. Avec les modèles non linéaires, il en va différemment. Une première mesure : l’effet marginal de Xj : Un inconvénient majeur de cette mesure : elle est sensible à l’échelle dans laquelle est exprimée la variable Xj on préférera l’usage des élasticités
Elasticité de la probabilité de Yi = 1 à la modification de Xj : si Xji varie de 1 % de combien variera la probabilité de Y = 1 pour l ’individu i ? • On voit que : • la valeur de l’élasticité n’est pas affectée par l’échelle dans laquelle est exprimée la variable X • la valeur de l’élasticité est susceptible de varier en fonction du point à partir duquel elle est mesurée pour cette raison, on la mesure souvent au point moyen.
Expression des élasticités de Pi par rapport à une variation de Xj calcul_effmarg_elasticites.prg Exercice : simul_logit_1.wf1 + calcul_eff_marg_elasticites.prg Estimation d’une relation de type logistique. Calcul des effets marginaux et des élasticités.
Appréciation de la qualité du modèle • 2 niveaux d’appréciation : • pouvoir explicatif (comportement du modèle sur l’échantillon qui a servi à l’estimation) • pouvoir prédictif (comportement du modèle en dehors de cet échantillon) Problème : la plupart des indicateurs de performance exploitables dans le cadre d’un modèle « traditionnel » ne le sont plus dans le cadre des modèles de choix qualitatifs. On doit en effet se souvenir que les valeurs calculées de Xb ne sont jamais que les valeurs calculées de la variable latente et non pas celles de la variable Y elle même. De même, les valeurs calculées de F(Xb) sont celles de la probabilité que Y soit égal à 1... de telle sorte que l’écart qui sépare les valeurs observées de Y des valeurs calculées de la variable latente (ou de la probabilité que Y = 1) n’a plus grande signification les tests et indicateurs fondés sur les carrés des résidus sont désormais inexploitables.
On pallie cette tare des résidus en privilégiant l’usage d’indicateurs fondés sur les vraisemblances (plutôt que sur les carrés des résidus) : • à la statistique de Fisher pour l’hypothèse nulle bj = 0 j > 1 on substitue un ratio de Log Vraisemblance : • LR = 2 (Log LUR – Log LR) • où LUR et LR sont les vraisemblances des modèles : • Yi = 1 si Yi* > 0 avec : • Modèle UR : Yi* = b1 + b2 X2i + ... + bk Xki + ei • Modèle R : Yi* = b1 + ei • Sous H0, cette statistique est réputée obéir à une loi du Chi-deux à k-1 DDL.
Au R2 traditionnel on préfèrera : • le R2 de Mc Fadden : • le pseudo R2 de Cragg et Uhler : • Il prend ses valeurs entre 0 et 1. Il tend vers la valeur 0 dans le cas pour lequel la vraisemblance du modèle non contraint tend vers celle du modèle contraint . A contrario, si la vraisemblance du modèle contraint tend vers zéro alors que celle du modèle non contraint tend vers 1 (cas pour lequel la contribution des variables retenues à l’explication de la probabilité P est forte), le pseudo R2 tend alors vers l’unité
Indicateurs de « prédictions » correctes Attention : il s’agit ici de mesurer l’aptitude du modèle à reproduire les valeurs effectivement observées de Y sur l’échantillon qui a servi à l’estimation des coefficients. Mais l’usage du terme « prédiction » est, dans ce contexte, assez répandu... quoiqu’incorrect ! Pour apprécier la qualité « prédictive » du modèle, on doit convenir d’un seuil au delà duquel la valeur calculée de Yi* se concrétiserait par une valeur prédite de Yi égale à 1. On peut, par exemple, convenir d’un seuil égal à 50 % (quoique ce seuil soit totalement arbitraire) :
On peut alors rapprocher les valeurs observées et calculées de Y et calculer les trois ratios suivants : avec : NPC{1} = nombre de fois où l’événement {Yi = 1} est correctement prédit NR{1} = nombre des réalisations de l’événement {Yi = 1} NPC{0} = nombre de fois où l’événement {Yi = 0} est correctement prédit NR{0} = nombre des réalisations de l’événement {Yi = 0} NPC = nombre de prédictions correctes (quelle que soit l’occurrence) N = nombre des individus Illustration : Perform_predict.prg
Gain et gain relatif associés au modèle non contraint Objectif : comparer le gain, en termes de performance « prédictive » du modèle UR par rapport au modèle R. Gain {1} = NPCUR{1}-NPCR{1} on peut aussi le rapporter à NR{1} (cf. Eviews) : (NPCUR{1}-NPCR{1}) / NR{1} Gain relatif {1}= Le gain relatif nous renseigne sur l’apport effectif du modèle UR par rapport au gain potentiel
Le problème du « gain » comme du « gain relatif » c’est que les valeurs de ces deux indicateurs sont sensibles au choix du seuil discriminant (ici 50 %). On préférera, pour ce motif, calculer les espérances : * espérance du nombre d’individus qui devraient présenter, théoriquement, la modalité Y = 1 au sein de la population des N1 individus qui présentent en effet cette modalité : * espérance du nombre d’individus qui devraient présenter, théoriquement, la modalité Y = 0 au sein de la population des N0 individus qui présentent en effet cette modalité :
Si les probabilités sont correctement évaluées, la statistique HL : est approximativement distribuée selon une loi du Chi-Deux à J-2 DDL Test d ’adéquation de Hosmer Lemeshow Objectif : testerl’adéquation des probabilités calculées aux probabilités théoriques (inobservables) de l’événement Yi = 1 1. on trie les individus par valeur croissante du « risque » calculé 2. on classe les individus en J classes (déciles par exemple) de nj individus 3. pour chaque classe on calcule le nombre y(j) des individus qui présentent effectivement la valeur 1 4. pour chaque classe j on calcule la probabilité moyenne de Y = 1 : On doit noter que nj Pbar(j) est l ’espérance calculée du nombre des individus qui devraient présenter la modalité 1 dans la classe j. L ’idée du test consiste à tester la nullité de l ’écart entre effectif observé et effectif « espéré » de modalité 1 pour l ’esnemble des classes. Par ailleurs, on peut montrer que nj Pbar(j) (1 - Pbar(j)) est la variance calculée de y(j).
Application : SIMUL_LOGIT.WF1 Nombre d ’individus qui présentent effectivement une valeur de Y égale à 1 Nombre d ’individus qui présentent effectivement une valeur de Y égale à 0 Effectifs de classe Bornes inf et sup pour les probabilités calculées des classes Valeur de la statistique HL Seuil de risque pour pouvoir rejeter l ’hypothèse d ’adéquation Espérance du nombre des individus qui devraient présenter une valeur de Y égale à zéro Espérance du nombre des individus qui devraient présenter une valeur de Y égale à 1
Modèles multinomiaux • On suppose désormais que Y peut présenter un nombre de modalités supérieur à 2. • Il faut alors bien distinguer : • le cas où les valeurs prises par Y ne sont le reflet d ’aucune hiérarchie particulière modèles non ordonnés • le cas où les valeurs prises par Y ont, per se, une réelle signification modèles ordonnés
Modèles ordonnés Exemple : expliquer le taux de fréquentation des salles de cinéma. Y {1, 2, ..., M} Yi = 1 si i va au plus 1 fois au cinéma dans l ’année Yi = 2 si i va 2 fois au cinéma et c...
On peut conserver une approche en termes de variable latente en posant que : où les Xj sont les variables susceptibles d ’agir sur Y* (la propension à aller au cinéma). Comme dans le cas binomial, la modalité de Y dépendrait directement de la position de Y* par rapport à deux seuils : Yi = 1 si Yi* < g1 Yi = 2 si g1 < Yi* < g2 Yi = 3 si g2 < Yi*
Les probabilités des différentes modalités conditionnelles aux réalisations des Xj d ’une part et des valeurs des coefficients d ’autre part sont données par : et la vraisemblance de la ie observation est : Li = Pi1di1 Pi2di2 (1 – Pi1 – Pi2)1 - di1 - di2 à la condition de poser : di1 = 1 si Yi = 1 et 0 sinon di2 = 1 si Yi = 2 et 0 sinon,
Comme précédemment on retient généralement deux hypothèses pour ce qui concerne la distribution des ei : • hypothèse de normalité (multinomial probit) • hypothèse de distribution logistique (logit multinomial) • Dans le premier cas (normal) : Dans le deuxième cas (logistique) :