1 / 60

Modelos lineales generalizados

Modelos lineales generalizados. Introducción. Modelos lineales generalizados Motivación. Mirar los datos categóricos desde la óptica de la modelación permite… Mayor flexibilidad en el análisis Simplicidad en la construcción y contraste de hipótesis

Sophia
Download Presentation

Modelos lineales generalizados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modelos lineales generalizados Introducción

  2. Modelos lineales generalizadosMotivación • Mirar los datos categóricos desde la óptica de la modelación permite… • Mayor flexibilidad en el análisis • Simplicidad en la construcción y contraste de hipótesis • Unificación de conceptos y procedimientos con los modelos lineales clásicos

  3. Modelos lineales generalizadosGeneralidades • En un modelo lineal clásico, Y representa una observación con esperanza , entonces: • =x’ • Y se supone N(x’,2). • Las observaciones se suponen independientes • En un modelo lineal generalizado • g()=x’ • Y tiene una distribución que pertenece a la familia de distribuciones exponenciales. • Las observaciones se suponen independientes

  4. Familia exponencial • Distribuciones que está incluidas en esta familia son • Normal • Binomial • Poisson • Gamma • ….

  5. Modelos lineales generalizadosFunción de enlace • Los que se modela en un MLG no es la esperanza de Y sino una función de la esperanza de Y g() • g() se conoce como función de enlace • g() es una función monótona y diferenciable

  6. Modelos lineales generalizadosFunción de enlace • Algunas funciones de enlace típicas son • Identidad • Logit • Probit • Log • Compl. log-log • Inversa

  7. Modelos lineales generalizadosFunción de enlace • La función de enlace y la suposición de la distribución para la variable de respuesta pueden combinarse • Hay enlaces típicos (canónicos) para las distintas distribuciones • Lo usual es utilizar la combinación de la distribución con su enlace canónico

  8. Modelos lineales generalizadosEnlace canónico • Normal  Identidad • Poisson  Log • Binomial  Logit • Gamma  Inversa • Otras combinaciones • Binomial  Probit • Binomial  Comp. Log Log

  9. Modelos lineales generalizadosEstimación • Los estimadores del vector de parámetros () son aquellas soluciones que maximizan la función de verosimilitud • El máximo no se encuentra resolviendo un sistema de ecuaciones lineales como en el casos normal • El máximo se obtiene por un método iterativo • Un algoritmo: mínimos cuadrados ponderados iterados

  10. Modelos lineales generalizadosDeviance • Modelos lineales clásicos • Minimización de la suma de cuadrados residual • Modelos lineales generalizados • Minimización de la deviance

  11. Modelos lineales generalizadosResiduo Deviance • Modelo lineal clásico • SCResidual=Suma((residuoi)2) • Modelo lineal generalizado • Deviance=Suma((Residuo deviancei)2) • Residuo deviance es: • Normal • Binomial • Poisson

  12. Modelos lineales generalizadosInferencia • Contraste de hipótesis • Prueba del cociente de verosimilitudes • Prueba de Wald • Intervalos de confianza • Inversión de la prueba de verosimilitud • Inversión de la prueba de Wald

  13. Regresión logística

  14. Regresión logística • Yi: Bi(1, i), P(Yi=1)=i • Esperanza de Yi • µi=i; • Función de enlace • g(µ)=logit(µ)=log(µ/(1-µ)) • Modelo • g(µi)=x’i • Si  vector (n x 1) con i=g(µi), entonces =X

  15. Regresión logística • Es el MLG más conocido y utilizado • Aplicado en medicina • Análisis de estudios prospectivos, retrospectivos y transversales • Modelación de la sensibilidad y especificidad • Modelación de curvas ROC • Utilizado como un clasificador en: • Aplicaciones bancarias • Identificación de consumidores • Pronóstico médico

  16. Regresión logísticaHistoria • Bartlett (1937) • Introduce la transformación log(y/(1-y)) para el análisis de proporciones en ANAVA • Fisher y Yates (1938) • Sugieren la transformación para el parámetro de la binomial • Berkson (1944) • Introduce el término logit para la transformación log(y/(1-y)) • Observa resultados similares a los obtenidos Probit • Cornfield (1951) • Introduce el odds ratio como aproximación del riesgo relativo en el análisis de estudios caso-control y muestra su relación con los parámetros del modelo de regresión logística • Cox (1958) • Populariza el uso de la regresión logística con la publicación de The Análisis of Binary Data • La regresión logística madura en los 60’s

  17. Regresión logísticaUn ejemplo – Cangrejos… • La hembra del “cangrejo zapato de caballo” tiene un macho permanente en su nido, pero puede tener otros machos llamados satélites… • ¿La posesión de satélites dependen del tamaño de la hembra? • Dada una muestra de hembras tendremos dos variables • Y= 1 si la hembra posee satélites, Y=0 si no posee • X= Ancho del caparazón (una media del tamaño)

  18. Cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE WChi² p-valor Constante -12.35 2.63 22.07 <0.0001 Ancho 0.50 0.10 23.89 <0.0001 Valor gl Log Likelihood -97.23 171 Deviance 194.45 171 Escala (fijada) 1.00

  19. Cangrejos…Valores esperados • La función inversa de g(µ) es: -0/ 1

  20. Odds ratio • La chance (odds) de que una hembra, cuyo ancho de caparazón es w, tenga un satélite esta dada por:

  21. Odds ratio • La razón de chances (odds ratio) de que una hembra tenga un satélite es cuando su ancho de caparazón es w=w+1 respecto de una hembra cuyo ancho de caparazón es w esta dada por:

  22. Exp(i) es la razón de chances (odds ratio) del evento cuya prabilidad se modela, cuando la i-esima regresora pasa del valor xi a xi+1.

  23. Cangrejos… • La razón de chances de que una hembra del cangrejo “zapato de caballo” tenga al menos un macho satélite es: • La chance de que una hembra tenga un macho satélite es casi 65% mayor si tiene un caparazón un centímetro mas grande • ¿Cuanto mas grande es esta chance si tiene un caparazón 10 cm más ancho?

  24. Regresión logística múltipleMás sobre los cangrejos… • La regresión logística se extiende naturalmente al caso con múltiples regresoras • Además del ancho del caparazón, ¿es el peso de la hembra un factor pronóstico de la posesión de satélites? • El modelo en este caso es:

  25. Regresión logística múltipleMás sobre los cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE Wald Chi² p-valor Constante -9.3547 3.5281 7.0305 0.0080 Ancho 0.3068 0.1819 2.8430 0.0918 Peso 0.8338 0.6716 1.5411 0.2145 Valor gl Log Likelihood -96.4459 170 Deviance 192.8919 170 Escala (fijada) 1.0000

  26. Regresión logística múltiple • Estimación es mínimos cuadrados ponderados iterados • Los problemas en regresión lineal múltiple también se observan en regresión logística • Multicolinearidad • Datos con alto leverage • Selección de modelo

  27. Regresión logísticaRegresoras cualitativas • Las variables cualitativas se incluyen como variables indicadoras (dummy) • Una regresora cualitativa con k modalidades se convierte en (k-1) variables indicadoras • Las (k-1) variables indicadoras se incluyen en el modelo • La k-ésima modalidad: es la referencia

  28. Regresión logísticaAtaque cardíaco • Este ejemplo se analizó como una tabla de contingencia • La hipótesis era de homogeneidad de proporciones • ¿Cómo puede analizarse con un modelo logístico? • La variable regresora es la medicación con dos modalidades placebo y aspirina

  29. Regresión logísticaAtaque cardíaco… los datos

  30. Regresión logísticaAtaque cardíaco - análisis Regresión Logística Distribución: Binomial Función de enlace: Logit Frecuencias: Conteo Parámetros Est. EE Odd WChi² p-valor Constante -4.05 0.07 0.02 3045.10 <0.0001 Aspirina -0.61 0.12 0.55 24.37 <0.0001 Valor gl Log Likelihood -1544.49 22059 Deviance 3088.98 22059 Escala (fijada) 1.00

  31. Regresión logísticaRegresoras cuanti y cualitativas • El modelo logístico permite incluir variables regresoras y categóricas • En el ejemplo del cangrejo se dispone de datos sobre el color del caparazón • Se puede construir un modelo que incluya el efecto del ancho del caparazón y su color

  32. Regresoras cuanti y cualitativasMas sobre los cangrejos… Regresión Logística Distribución: Binomial Función de enlace: Logit Parámetros Est. EE Odd Wald Chi² p-valor Constante -12.72 2.76 3.0E-06 21.20 <0.0001 Color_1 1.33 0.85 3.78 2.43 0.1188 Color_2 1.40 0.55 4.06 6.54 0.0106 Color_3 1.11 0.59 3.02 3.49 0.0617 Ancho 0.47 0.11 1.60 19.66 <0.0001 Parámetros igualados a cero Efecto Parámetro Color Color_4 Valor gl Log Likelihood -93.73 168 Deviance 187.46 168 Escala (fijada) 1.00

  33. Curvas de probabilidad según color del caparazón, para la posesión de satélites en función del ancho del caparazón

  34. Modelo Probit Bliss 1935

  35. Modelo ProbitMotivación • Estudios toxicológicos de evaluación de la respuesta a una dosis • La respuesta es en general la muerte del individuo pero puede extenderse a cualquier otra respuesta binaria • La base del desarrollo de este modelo es el concepto de tolerancia

  36. Modelo ProbitTolerancia • Si un individuo muere cuando es desafiado con una dosis x>T • Se dice que el individuo tiene una tolerancia T • La tolerancia varia entre individuos y puede considerarse una variable aleatoria y F(t)=P(T<t)

  37. Modelo ProbitTolerancia • Y representa la respuesta al desafío con la toxina • Y=1: muere • Y=0: vive • P(Y=1|X=x)=P(T<=x)=F(x) • Si (.) es la distribución estandarizada de la familia de distribuciones a la que pertenece F(.). Entonces.. • P(Y=1|X=x)=((x-µ)/)=(0+1x) • Donde 0= -µ/ y 1 = 1/

  38. Modelo Probit • Si F(.) es la distribución acumulada de una normal con media µ y desviación estándar entonces • (.) es la distribución acumulada NORMAL estándar • µ es la media de tolerancia. • Es igual a - 0/1 • Es la dosis a la cual muere la mitad de los individuos en la población • Se conoce como Dosis Letal 50 (LD50).

  39. Modelo Probit • Si P(Y=1|X=x)=(0+1x) encontes • -1(P(Y=1|X=x))= 0+1x • Luego, cuando la distribución de tolerancias, sigue una distribución normal, la función de enlace natural es la inversa de la normal estándar

  40. Probit • Es un caso particular de MLG • La variable Y se supone binomial • La función de enlace es la inversa de la función de distribución acumulada normal estándar • El modelo general incluye una o mas regresoras, cuantitativas o cualitativas

  41. Modelo ProbitEscarabajos • Escarabajos sometidos a distintas dosis de un insecticida durante 5 horas • La dosis se reporta como logaritmo de la concentración del insecticida Regresión Probit Distribución: Binomial Función de enlace: Probit Frecuencias: Expuestos Parámetros Est. EE Wald Chi² p-valor Constante -34.96 2.65 174.13 <0.0001 Dosis 19.74 1.49 175.99 <0.0001

  42. Modelo ProbitEscarabajos • La tolerancia media • -(-34.96/ 19.74)=1.77 • Desviación estándar de la tolerancia • (1/ 19.74)=0.05

  43. Modelo ProbitIntervalo de confianza para la media de tolerancia

  44. Modelo ProbitEscarabajos

  45. Modelo ProbitEscarabajos 1.00 0.75 Probabilidad de muerte 0.50 0.25 0.00 1.68 1.73 1.79 1.84 1.89 Dosis

  46. Regresión Poisson Modelando los conteos

  47. Regresión Poisson • Se trata de un MLG donde la respuesta Y es un conteo que se supone tiene distribución Poisson y la función de enlace es log(µ) • Las aplicaciones mas interesante son aquellas en las que los conteos se modelan en función de variables cuantitativas, cualitativas o combinación de ellas

  48. Regresión Poisson • La forma mas simple de introducir los modelos de regresión Poisson es pensando en la modelación de las frecuencias observadas en las celdas de una tabla de contingencia • El modelo asume tantos datos como celdas en la tabla y no el conjunto de casos que contribuyen a la constitución de las frecuencias de cada celda.

  49. Regresión Poisson • En una tabla IxJ, la esperanza de la celda ij se puede modelar como

  50. Cinturón de seguridadDepartamento de seguridad vial de Florida (1988) • En ese estudio se contabilizaron todos los accidentes ocurridos en Florida en 1988.

More Related