670 likes | 2.25k Views
Modelos de Variable Dependiente Binaria -Logit y Probit-. Econometría Aplicada Daniel Lema. Introducción. Modelos de regresión donde la variable dependiente es binaria o dummy El desarrollo moderno de los modelos de elección binaria se encuentra en las aplicaciones biológicas.
E N D
Modelos de Variable Dependiente Binaria-Logit y Probit- Econometría Aplicada Daniel Lema
Introducción • Modelos de regresión donde la variable dependiente es binaria o dummy • El desarrollo moderno de los modelos de elección binaria se encuentra en las aplicaciones biológicas. • Ej: experimentos en los que se administra una dosis ui de una droga a grupos de insectos y se pretende analizar su probabilidad de supervivencia.
Introducción • Sea ci la tolerancia de un insecto en particular a esa droga: el insecto i muere (yi = 1) si ui > ci y sobrevive (yi = 0) si ui < ci. • Por lo tanto, la probabilidad de fallecer es: • Pr (yi = 1) = Pr (ui > ci) . • En aplicaciones a las Ciencias Sociales, u y c suelen ser inobservables, de manera que la derivación del modelo binario gira en torno a la existencia de unas variables latentes que determinan el comportamiento del individuo.
Por ejemplo: • Un modelo que trata de explicar los factores determinantes de que una familia sea adquiera una casa. • Podemos pensar que u podría ser la utilidad y c un umbral o valor critico. • En este caso lo que observaríamos es el resultado de una decisión maximizadora de la utilidad por parte de un individuo racional (preferencias reveladas) y el objetivo del análisis sería “revelar”información sobre las variables latentes que gobiernan esa decisión (empleando ciertas restricciones estructurales). • Alternativamente, u puede interpretarse como una variable indicador (denotada habitualmente como y*) que determina la decisión tomada por cada individuo.
Si el valor que toma el indicador es superior (inferior) a un determinado valor critico ci – en general, desconocido – entonces el individuo toma la decisión representada por yi = 1 (yi = 0). • Por lo tanto, el indicador refleja el sentimiento del decisor frente a la opción que representa yi = 1: si su predisposición es lo suficientemente grande (mayor que ci) entonces elegirá dicha opción; en caso contrario, optará por la opción alternativa, yi = 0. • Este tipo de planteamiento es usual, por ejemplo, en estudios sobre participación en el mercado laboral (salario de mercado y salario de reserva) o sobre migración (beneficios y costos).
En particular, si suponemos que el indicador depende aditivamente de las características personales del individuo y de una componente aleatoria yi* = x´iβ + εi, • entonces la probabilidad de que el individuo i−ésimo elija la acción yi = 1 vendrá dada por: • Pr (yi = 1) = Pr (yi > ci) = F (x´iβ ) , • Donde F (.) es la función de distribución acumulada de yi . • El objetivo es analizar como estimar el vector de parámetros β
Por ejemplo, se selecciona una muestra de hogares y se registra el ingreso y si la familia es propietaria o no de una casa. El modelo puede expresarse • Yi=a + b Xi + ei • Donde Yi = 1 si el hogar es propietario de su casa y cero en caso contrario. • Xi es el ingreso del hogar i
Se puede aplicar MCO a este problema • Este es el modelo lineal de probabilidad lineal (MLP) • El MLP pertenece a la clase de modelos de decisión asociada a la existencia de variables latentes. • En concreto, el MLP representa el caso particular en el que la función F (.) corresponde a una distribución uniforme en el intervalo [0, 1]. • No obstante, los modelos lineales tienen una serie de características que ponen en duda la aplicabilidad de este tipo de aproximación para observaciones individuales.
Los test de hipótesis se basan en la normalidad del término de error. No son aplicables. • Para un valor dado de Xi el término de error sólo puede tomar uno de los siguientes dos valores • ei = 1 – a – bXi cuando Yi = 1 • ei = – a – bXi cuando Yi = 0 • En consecuencia los errores no se distribuyen como una normal (de hecho lo hacen como una binomial)
Los errores son Heteroscedasticos. • El estimador MCO es ineficiente (no tienen varianza mínima) • Predicción: El valor x´i b no será, en general, 0 o 1. • De hecho, no existen garantías de que la predicción efectivamente satisfaga la restricción 0 ≤ Pr (yi = 1|xi) ≤ 1
Estos problemas no impiden absolutamente la aplicación de MCO • Se puede ajustar por heteroscedasticidad • Los errores no normales son menos problemáticos en muestras grandes • Predicciones negativas o mayores a uno no son un problema serio (pueden ignorarse, por ej.)
Sin embargo, algunos supuestos del modelo son restrictivos • Por ejemplo la constancia del efecto marginal de un cambio en el ingreso sobre la probabilidad de ser propietario (b) • Supongamos, que los parámetros estimados por MCO (para una muestra dada) son: • yi = 0.012 + 0.1021xi. • El valor de la constante (0.012) corresponde a la probabilidad de que una familia sin ingresos, xi = 0, posea una vivienda. • El valor de la pendiente es el aumento en la probabilidad de poseer una vivienda provocado por un incremento unitario en el nivel de ingresos.
En el MLP ese aumento se produce con independencia del nivel de ingreso del que se • Parte • Económicamente uno esperaría que el aumento de la probabilidad fuera no lineal: para niveles bajos de renta la probabilidad de poseer una vivienda sería baja, • Mientras que para niveles elevados este hecho sería mucho más probable. • Esto implicaría una relación de este tipo entre probabilidad de ser propietario e ingreso
La relación es no lineal • La variable dependiente está restringida entre cero y uno • Por sus características, las funciones de distribución de variables aleatorias son candidatas potenciales, puesto que de esta forma resolvemos de forma sencilla el problema que tenía el MLP respecto al rango de valores que podía tomar la predicción de la variable endógena. • Dos modelos producen una relación de este tipo • Un modelo basado en la función logística • Un modelo derivado de una función de distribución normal acumulada
Modelo Logit • Expresando el modelo explícitamente en términos de probabilidades tenemos • Pi = a + b Xi • Donde Pi es la probabilidad de que el hogar i sea propietario de una casa • Una relación que genera un gráfico como el anterior es:
Definimos la razón de probabilidades (odds ratio) como: En el caso de la propiedad de casas representa la razón de la probabilidad de que una familia posea una casa respecto de la probabilidad de que no la posea. Por ejemplo, si Pi = 0.8 significa que las probabiliades son 4 a 1 a favor de que la familia posea una casa (0.8/0.2)
Si tomamos el logaritmo natural de la razón de probabilidades obtenemos • Entonces, el Li resulta lineal en X y también en los parámetros • L es llamado modelo Logit
La interpretación del modelo es la siguiente: • b es la pendiente y mide el cambio en L ocasionado por un cambio unitario en X, es decir, dice cómo el logaritmo de las probabilidades a favor de tener una casa cambian a mediada que el ingreso cambia en una unidad. • a es el valor de L si el ingreso es cero
Dado un nivel de ingreso X* si se desea estimar la probabilidad de tener una casa (y no las probabilidades a favor de tener una casa) se puede calcular a partir de la definición de Pi una vez estimados los parámetros (efectos marginales). • El método de estimación es por Máxima Verosimilitud (MV)
El Modelo Probit • La aproximación al problema es similar al Logit pero se supone una relación no lineal distinta (aunque muy similar) entre Xi y Pi • Se basa en la distribución normal acumulada • Se supone que la decisión de poseer o no una casa depende de un índice I (conocido como variable latente)
El índice I está determinado por una o varias variables explicativas. Por ej ingreso • Cuanto mayor sea el índice mayor la probabilidad de tener una casa • Ii = a + b Xi • Se supone un umbral crítico I* a partir del cuál, si I supera a I* entonces una familia posee una casa. • El umbral I*, al igual que I, no es observable • Si se supone que está distribuido normalmente con la misma media y varianza es posible estimar los parámetros del índice y también alguna información sobre el I*.
Pi = P (Y=1|X) = P(I*i≤ Ii) = P(Zi≤a + b Xi) = F(a + b Xi) Donde Z es una variable estándar normal, Z ~ N(0, s2) F es la función de distribución normal acumulada
Pi = F(Ii) Pi Pr (I*i≤ Ii) Ii = a + b Xi + ∞ - ∞ 0
Estimación • La estimación se realiza por MV • Dado que para cada individuo i la función de verosimilitud será la probabilidad de que haya elegido 1 o 0, la función de verosimilitud muestral será: • Tomando logaritmos:
Las derivadas parciales en caso Logit: • Donde • En el caso Probit: • Donde
La solución a estos sistema de ecuaciones se realiza por algoritmos (Ej.Newton-Raphson) • Es necesario obtener la matriz de varianzas y covarianzas asintótica invirtiendo el Hessiano (o su esperanza) también llamado Matriz de Información
En el Logit: • En el Probit
Los algoritmos funcionan generalmente bien en los Logit y Probit (convergencia en 3–5 iteraciones). • Sin embargo, a veces no se alcanza esa convergencia (por ejemplo, porque no se puede invertir el Hessiano debido a que lnL no presenta la suficiente concavidad) o se alcanza en un máximo local. • Muchos de estos casos tienen su origen en errores en las variables • El tamaño de la muestra también puede jugar un papel importante: la convergencia se alcanza más rápidamente cuanto mayor es el ratio entre el número de observaciones y el número de variables • Recomendación: aprox. 100 observaciones como mínimo y 10 observaciones por parámetro.
Otro aspecto a tener en cuenta es que los coeficientes de los modelos logit y probit no son comparables directamente entre si (y mucho menos respecto a los del MLP). • No obstante, se puede demostrar que existen ciertas relaciones de proporcionalidad entre ellos: • En general, las estimaciones del modelo Logit serán entre 1.6 y 1.8 veces las del Probit.
Interpretación de los Coeficientes • Una diferencia fundamental respecto a los modelos lineales es que la influencia que tienen las variables explicativas sobre la probabilidad de elegir la opción dada por yi = 1 (la derivada parcial, dyi/dxi = βk en los modelos lineales) no es independiente del vector de características xi. • Una primera aproximación a la relación entre las variables explicativas y la probabilidad resultante es calcular los efectos marginales sobre la variable latente (y*) .
Si el efecto marginal expresa el cambio de la variable dependiente provocado por un cambio unitario en una de las independientes manteniendo el resto constante, los parámetros estimados del Logit y el Probit reflejan el efecto marginal de las xik en yi de la misma forma que en el MLP, puesto qe E (y*|x) = x´β.
Por ejemplo, consideremos el siguiente modelo con una variable explicativa continua • (xi) y una discreta (di): • Y* = β0 + β1xi + β2di + εi. • Para las variables continuas el efecto marginal viene dado por dy*i/dxi= β1. • Por su parte, para las ficticias el efecto marginal es • E (y*|di = 1)−E (y*|di = 0) = β2. • El principal problema que enfrenta este tipo de interpretación es que no tiene un reflejo muestral (la variable latente no es observada). • Por lo tanto, sólo es adecuada cuando lo que se busca es analizar las preferencias o utilidades subyacentes en el modelo.
Los efectos marginales pueden construirse sobre la probabilidad y, de hecho, este es el tipo de presentación más frecuente. • El efecto de la k−ésima variable explicativa, manteniendo el resto constante, puede ser calculado como: • siendo F (.) la función de distribución y f (.) la función de densidad.
Por lo tanto, en un modelo binario la influencia que tienen las explicativas sobre la probabilidad de elegir la opción dada por yi = 1 no depende simplemente del valor los coeficientes, sino también del valor que toman las variables explicativas. • Por ej: El efecto marginal máximo ocurrirá cuando Pr (y = 1) = 0.5
Esto significa que, a diferencia de lo que ocurre en el MLP, el efecto de una variable sobre la probabilidad varía con el valor de esa variable (es decir, no es independiente del vector de características xi).
En Logit • En Probit
Los resultados previos suponen que si bien los coeficientes de estos modelos no son directamente interpretables, sus valores relativos si lo son. • Por ej. el cociente βj/ βk mide la importancia relativa de los efectos marginales de las variables xj y xk. • Dado que los efectos marginales varian con x resulta conveniente calcularlos para valores concretos de la variable. • Los “efectos marginales medios”, obtenidos a partir de la media muestral de la variable, son una de las formas más comunes de presentación de losresultados (por ejemplo, en Stata).
También se puede calcular, por ejemplo, el efecto medio respecto al conjunto de las • observaciones:
Inferencia • La inferencia no presenta diferencias sustanciales respecto al Modelo Lineal Gaussiano, por lo que para llevar a cabo hipótesis sobre el valor de un coeficiente puede emplearse un estadístico de la t−Student tradicional (aunque, siendo rigurosos, la distribución apropiada sería la Normal).(ratio z) • Por su parte, para contrastar la validez de un conjunto de restricciones como las que definen la significación global del modelo puede el test de razón de verosimilitud (LR)
Por ultimo, una forma de evaluación del modelo es la que se deriva de la bondad del ajuste. • Evidentemente, al tratarse de modelos no lineales carece de sentido plantear la bondad del ajuste en los t´erminos que definen el coeficiente de determinación (R2). • Existen criterios alternativos que, en cierto modo, siguen la misma idea. • Todas estas medidas deben interpretarse con cierta cautela • Su validez como criterios de selección del modelo es ciertamente limitada.
Una medida es el pseudo R2 de Mc Fadden: • En este caso, si los coeficientes son poco significativos la capacidad explicativa del modelo será muy reducida y el Loglikelihood sin restricciones será muy similar al L0; por el contrario, cuanto mayor sea la capacidad explicativa del modelo, más proximo estará R2 a uno.