1.15k likes | 3.12k Views
Modelos lineales generalizados. Introducción. Modelos lineales generalizados Motivación. Mirar los datos categóricos desde la óptica de la modelación permite… Mayor flexibilidad en el análisis Simplicidad en la construcción y contraste de hipótesis
E N D
Modelos lineales generalizados Introducción
Modelos lineales generalizadosMotivación • Mirar los datos categóricos desde la óptica de la modelación permite… • Mayor flexibilidad en el análisis • Simplicidad en la construcción y contraste de hipótesis • Unificación de conceptos y procedimientos con los modelos lineales clásicos
Modelos lineales generalizadosGeneralidades • En un modelo lineal clásico, Y representa una observación con esperanza , entonces: • =x’ • Y se supone N(x’,2). • Las observaciones se suponen independientes • En un modelo lineal generalizado • g()=x’ • Y tiene una distribución que pertenece a la familia de distribuciones exponenciales. • Las observaciones se suponen independientes
Familia exponencial • Distribuciones que está incluidas en esta familia son • Normal • Binomial • Poisson • Gamma • ….
Modelos lineales generalizadosFunción de enlace • Los que se modela en un MLG no es la esperanza de Y sino una función de la esperanza de Y g() • g() se conoce como función de enlace • g() es una función monótona y diferenciable
Modelos lineales generalizadosFunción de enlace • Algunas funciones de enlace típicas son • Identidad • Logit • Probit • Log • Compl. log-log • Inversa
Modelos lineales generalizadosFunción de enlace • La función de enlace y la suposición de la distribución para la variable de respuesta pueden combinarse • Hay enlaces típicos (canónicos) para las distintas distribuciones • Lo usual es utilizar la combinación de la distribución con su enlace canónico
Modelos lineales generalizadosEnlace canónico • Normal Identidad • Poisson Log • Binomial Logit • Gamma Inversa • Otras combinaciones • Binomial Probit • Binomial Comp. Log Log
Modelos lineales generalizadosEstimación • Los estimadores del vector de parámetros () son aquellas soluciones que maximizan la función de verosimilitud • El máximo no se encuentra resolviendo un sistema de ecuaciones lineales como en el casos normal • El máximo se obtiene por un método iterativo • Un algoritmo: mínimos cuadrados ponderados iterados
Modelos lineales generalizadosDeviance • Modelos lineales clásicos • Minimización de la suma de cuadrados residual • Modelos lineales generalizados • Minimización de la deviance
Modelos lineales generalizadosResiduo Deviance • Modelo lineal clásico • SCResidual=Suma((residuoi)2) • Modelo lineal generalizado • Deviance=Suma((Residuo deviancei)2) • Residuo deviance es: • Normal • Binomial • Poisson
Modelos lineales generalizadosInferencia • Contraste de hipótesis • Prueba del cociente de verosimilitudes • Prueba de Wald • Intervalos de confianza • Inversión de la prueba de verosimilitud • Inversión de la prueba de Wald
Regresión logística • Yi: Bi(1, i), P(Yi=1)=i • Esperanza de Yi • µi=i; • Función de enlace • g(µ)=logit(µ)=log(µ/(1-µ)) • Modelo • g(µi)=x’i • Si vector (n x 1) con i=g(µi), entonces =X
Regresión logística • Es el MLG más conocido y utilizado • Aplicado en medicina • Análisis de estudios prospectivos, retrospectivos y transversales • Modelación de la sensibilidad y especificidad • Modelación de curvas ROC • Utilizado como un clasificador en: • Aplicaciones bancarias • Identificación de consumidores • Pronóstico médico
Regresión logísticaHistoria • Bartlett (1937) • Introduce la transformación log(y/(1-y)) para el análisis de proporciones en ANAVA • Fisher y Yates (1938) • Sugieren la transformación para el parámetro de la binomial • Berkson (1944) • Introduce el término logit para la transformación log(y/(1-y)) • Observa resultados similares a los obtenidos Probit • Cornfield (1951) • Introduce el odds ratio como aproximación del riesgo relativo en el análisis de estudios caso-control y muestra su relación con los parámetros del modelo de regresión logística • Cox (1958) • Populariza el uso de la regresión logística con la publicación de The Análisis of Binary Data • La regresión logística madura en los 60’s
Regresión logísticaUn ejemplo – Cangrejos… • La hembra del “cangrejo zapato de caballo” tiene un macho permanente en su nido, pero puede tener otros machos llamados satélites… • ¿La posesión de satélites dependen del tamaño de la hembra? • Dada una muestra de hembras tendremos dos variables • Y= 1 si la hembra posee satélites, Y=0 si no posee • X= Ancho del caparazón (una media del tamaño)
Cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE WChi² p-valor Constante -12.35 2.63 22.07 <0.0001 Ancho 0.50 0.10 23.89 <0.0001 Valor gl Log Likelihood -97.23 171 Deviance 194.45 171 Escala (fijada) 1.00
Cangrejos…Valores esperados • La función inversa de g(µ) es: -0/ 1
Odds ratio • La chance (odds) de que una hembra, cuyo ancho de caparazón es w, tenga un satélite esta dada por:
Odds ratio • La razón de chances (odds ratio) de que una hembra tenga un satélite es cuando su ancho de caparazón es w=w+1 respecto de una hembra cuyo ancho de caparazón es w esta dada por:
Exp(i) es la razón de chances (odds ratio) del evento cuya prabilidad se modela, cuando la i-esima regresora pasa del valor xi a xi+1.
Cangrejos… • La razón de chances de que una hembra del cangrejo “zapato de caballo” tenga al menos un macho satélite es: • La chance de que una hembra tenga un macho satélite es casi 65% mayor si tiene un caparazón un centímetro mas grande • ¿Cuanto mas grande es esta chance si tiene un caparazón 10 cm más ancho?
Regresión logística múltipleMás sobre los cangrejos… • La regresión logística se extiende naturalmente al caso con múltiples regresoras • Además del ancho del caparazón, ¿es el peso de la hembra un factor pronóstico de la posesión de satélites? • El modelo en este caso es:
Regresión logística múltipleMás sobre los cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE Wald Chi² p-valor Constante -9.3547 3.5281 7.0305 0.0080 Ancho 0.3068 0.1819 2.8430 0.0918 Peso 0.8338 0.6716 1.5411 0.2145 Valor gl Log Likelihood -96.4459 170 Deviance 192.8919 170 Escala (fijada) 1.0000
Regresión logística múltiple • Estimación es mínimos cuadrados ponderados iterados • Los problemas en regresión lineal múltiple también se observan en regresión logística • Multicolinearidad • Datos con alto leverage • Selección de modelo
Regresión logísticaRegresoras cualitativas • Las variables cualitativas se incluyen como variables indicadoras (dummy) • Una regresora cualitativa con k modalidades se convierte en (k-1) variables indicadoras • Las (k-1) variables indicadoras se incluyen en el modelo • La k-ésima modalidad: es la referencia
Regresión logísticaAtaque cardíaco • Este ejemplo se analizó como una tabla de contingencia • La hipótesis era de homogeneidad de proporciones • ¿Cómo puede analizarse con un modelo logístico? • La variable regresora es la medicación con dos modalidades placebo y aspirina
Regresión logísticaAtaque cardíaco - análisis Regresión Logística Distribución: Binomial Función de enlace: Logit Frecuencias: Conteo Parámetros Est. EE Odd WChi² p-valor Constante -4.05 0.07 0.02 3045.10 <0.0001 Aspirina -0.61 0.12 0.55 24.37 <0.0001 Valor gl Log Likelihood -1544.49 22059 Deviance 3088.98 22059 Escala (fijada) 1.00
Regresión logísticaRegresoras cuanti y cualitativas • El modelo logístico permite incluir variables regresoras y categóricas • En el ejemplo del cangrejo se dispone de datos sobre el color del caparazón • Se puede construir un modelo que incluya el efecto del ancho del caparazón y su color
Regresoras cuanti y cualitativasMas sobre los cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE Odd Wald Chi² p-valor Constante -12.72 2.76 3.0E-06 21.20 <0.0001 Color_1 1.33 0.85 3.78 2.43 0.1188 Color_2 1.40 0.55 4.06 6.54 0.0106 Color_3 1.11 0.59 3.02 3.49 0.0617 Ancho 0.47 0.11 1.60 19.66 <0.0001 Parámetros igualados a cero Efecto Parámetro Color Color_4 Valor gl Log Likelihood -93.73 168 Deviance 187.46 168 Escala (fijada) 1.00
Curvas de probabilidad según color del caparazón, para la posesión de satélites en función del ancho del caparazón
Modelo Probit Bliss 1935
Modelo ProbitMotivación • Estudios toxicológicos de evaluación de la respuesta a una dosis • La respuesta es en general la muerte del individuo pero puede extenderse a cualquier otra respuesta binaria • La base del desarrollo de este modelo es el concepto de tolerancia
Modelo ProbitTolerancia • Si un individuo muere cuando es desafiado con una dosis x>T • Se dice que el individuo tiene una tolerancia T • La tolerancia varia entre individuos y puede considerarse una variable aleatoria y F(t)=P(T<t)
Modelo ProbitTolerancia • Y representa la respuesta al desafío con la toxina • Y=1: muere • Y=0: vive • P(Y=1|X=x)=P(T<=x)=F(x) • Si (.) es la distribución estandarizada de la familia de distribuciones a la que pertenece F(.). Entonces.. • P(Y=1|X=x)=((x-µ)/)=(0+1x) • Donde 0= -µ/ y 1 = 1/
Modelo Probit • Si F(.) es la distribución acumulada de una normal con media µ y desviación estándar entonces • (.) es la distribución acumulada NORMAL estándar • µ es la media de tolerancia. • Es igual a - 0/1 • Es la dosis a la cual muere la mitad de los individuos en la población • Se conoce como Dosis Letal 50 (LD50).
Modelo Probit • Si P(Y=1|X=x)=(0+1x) encontes • -1(P(Y=1|X=x))= 0+1x • Luego, cuando la distribución de tolerancias, sigue una distribución normal, la función de enlace natural es la inversa de la normal estándar
Probit • Es un caso particular de MLG • La variable Y se supone binomial • La función de enlace es la inversa de la función de distribución acumulada normal estándar • El modelo general incluye una o mas regresoras, cuantitativas o cualitativas
Modelo ProbitEscarabajos • Escarabajos sometidos a distintas dosis de un insecticida durante 5 horas • La dosis se reporta como logaritmo de la concentración del insecticida Regresión Probit Distribución: Binomial Función de enlace: Probit Frecuencias: Expuestos Parámetros Est. EE Wald Chi² p-valor Constante -34.96 2.65 174.13 <0.0001 Dosis 19.74 1.49 175.99 <0.0001
Modelo ProbitEscarabajos • La tolerancia media • -(-34.96/ 19.74)=1.77 • Desviación estándar de la tolerancia • (1/ 19.74)=0.05
Modelo ProbitIntervalo de confianza para la media de tolerancia
Modelo ProbitEscarabajos 1.00 0.75 Probabilidad de muerte 0.50 0.25 0.00 1.68 1.73 1.79 1.84 1.89 Dosis
Regresión Poisson Modelando los conteos
Regresión Poisson • Se trata de un MLG donde la respuesta Y es un conteo que se supone tiene distribución Poisson y la función de enlace es log(µ) • Las aplicaciones mas interesante son aquellas en las que los conteos se modelan en función de variables cuantitativas, cualitativas o combinación de ellas
Regresión Poisson • La forma mas simple de introducir los modelos de regresión Poisson es pensando en la modelación de las frecuencias observadas en las celdas de una tabla de contingencia • El modelo asume tantos datos como celdas en la tabla y no el conjunto de casos que contribuyen a la constitución de las frecuencias de cada celda.
Regresión Poisson • En una tabla IxJ, la esperanza de la celda ij se puede modelar como
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988) • En ese estudio se contabilizaron todos los accidentes ocurridos en Florida en 1988.