390 likes | 620 Views
Estadística multivariada. Programa de doctorado: “ Calidad de vida, Bienestar Social y Salud Pública”. Notas previas: Leyendo modelos estadísticos. Altura = 170 La altura media en la población es de 170 cm Cada individuo introduce además un término de error aleatorio 170 + 5 170 – 3 …
E N D
Estadísticamultivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública” Francisco Javier Barón López
Notas previas: Leyendo modelos estadísticos • Altura = 170 • La altura media en la población es de 170 cm • Cada individuo introduce además un término de error aleatorio • 170 + 5 • 170 – 3 • … • Los términos de error tienen algún tipo de distribución conocida • Normal, … • Igualmente distribuidos en grupos… • Independientes • Incorrelados temporalmente, … Francisco Javier Barón López
Modelos con variables dicotómicas Código: 0 Grupo de control, caso base… Código: 1 Grupo de tratamiento, … • Altura = 160 + 10 Sexo • Codificación de los grupos por sexo: • 0 mujeres • 1 hombres • Interpretación: • La altura media en las mujeres es de 160 cm • La altura media en los hombres es de 170 cm • El sexo influye en la altura. El sexo hombre tiene un efecto no nulo de 10 cm sobre la altura media. Promedio delcaso base Efecto de sexo = 1 160 + 0 160 + 10 Francisco Javier Barón López
Modelos con variables numéricas • Precio casa = 100.000 + 10.000 Habitación • Interpretación: • El precio de una casa con cero habitaciones es 100.000 • ¡Extraño! • En realidad es mejor interpretarlo como lo que habría que añadir a una casa con un numero medio de habitaciones para que tuviese un precio medio. • Las casas aumentan de precio en función del número de habitaciones. • El efecto de añadir una habitación es aumentar el precio de la casa en 10.000. Intercepción, Intersección,… Pendiente.Aumento de valor de una casa por cada habitación. Francisco Javier Barón López
Modelos con variables dicotómicas y numéricas • Precio casa = 100.000 + 10.000 Habitación + 30.000 Barrio • Codificación del barrio: • 0 Bajo • 1 Alto Francisco Javier Barón López
… y con variables cualitativas en general • Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2 • Codificación del barrio: Variables indicadoras, mudasNos ayudarán a comprender mejorlos efectos, interacciones,… Grupo de control Tratamiento 1 Tratamiento 2 Variable cualitativa inicial Francisco Javier Barón López
… esperad, aún hay más… • Precio casa = • 100.000 + 10.000 Habitación • + 10.000 Barrio1 + 20.000 Barrio2 • + 6.000 Aparcamiento • Codificación del aparcamiento • 0: Sin aparcamiento • 1: Con aparcamiento Francisco Javier Barón López
… y faltan las interacciones. • Precio casa = • 100.000 + 10.000 Habitación • + 10.000 Barrio1 + 20.000 Barrio2 • + 6.000 Aparcamiento • + 2.000 Aparcamiento * Barrio1 • + 4.000 Aparcamiento * Barrio2 Francisco Javier Barón López
El modelo no debe quedarse corto ni pasarse • Un modelo muy simple no explicará bien la variabilidad presente en los datos. • Precio = 100.000 • Un modelo muy complicado será difícil de comprender. • Además podemos encontrarnos sorpresas: correlaciones entre variables explicativas (falta de ortogonalidad), inestabilidad numérica,… • Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento + … Francisco Javier Barón López
Complicar el modelo lo justito ¡OJO! SPSS sólo enseñadirectamente lasignificación del modelo mínimofrente al que nosotrospropongamos. Raroserá que no seasignificativo un modelotan simple. Un cálculo manual nospermitirá comparar unosmodelos con otros. • Elegir modelo que explique lo observado y que sea tan simple como sea posible. • Precio = 100.000 • Bondad de ajuste corregida 1%. Significación = 0,0001 • Muy simple. No explica la variabilidad. Compliquémoslo. • Precio = 100.000 + 10.000 Hab. • Bondad de ajuste corregida 10%. Significación = 0,01 • Mejor. Pero hay mucha variabilidad por explicar. Compliquémoslo. • Precio = 100.000 + 10.000 Hab + 30.000 Barrio • Bondad de ajuste corregida 41%.Significación = 0,12 • Tal vez no valga la pena complicarlo más. • Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento • Bondad de ajuste corregida 40%. Significación = 0,15 • No ha merecido la pena la complicación. Francisco Javier Barón López
Dos técnicas para abordar problemas multivariados • En función del tipo de la variable respuesta vamos a considerar dos técnicas que son casos particulares del modelo lineal generalizado. Este abarca buena parte de las técnicas estadísticas que se aplican en Medicina: • Modelo lineal generalizado • Respuesta numérica: (Regresión lineal) • T-student en 2 muestras • ANOVA de 1 vía • ANOVA de 2 vias con/sin interaccciones • Modelos factoriales… • Respuesta dicotómica (Regresión Logística) • Vivo/Muerto • Enfermo/Sano Francisco Javier Barón López
Marco general • Tenemos una serie de variables explicativas, X1,…,Xp • Numéricas • Ordinales • Dicotómicas • Cualitativas codificadas en forma de múltiples dicotómicas • Interacciones,… • Tenemos una sola variable explicada (univariante) • Numérica: Modelo lineal de regresión • Y = b0 + Σ bi xi • Dicotómica: Regresión logística • Ln (Odds) = b0 + Σ bi xi Francisco Javier Barón López
1 0 Francisco Javier Barón López
Un contraste de igualdad de medias (t-student) • Hipótesis nula: • Es el salario medio inicial igual para hombres y mujeres • Salario = b0 • Hipótesis alternativa: • El Género tiene un efecto no nulo sobre el salario • Salario = b0 + b1 Genero • Este problema puede formularse en términos de un análisis de regresión: • Salario = b0 + b1 Genero La hipótesis nula afirma quees cero. Si signif. pequeña la rechazamos. Valor medio del grupo controlGENERO=0 (mujer) Efecto del “tratamiento”GENERO=1 (hombre) Francisco Javier Barón López
Se rechaza elmodelo simple Salario promedio del “grupo control” (mujeres) Se rechaza elmodelo simple Efecto del genero 1 en el salario medio Francisco Javier Barón López
Sin embargo el modelo alternativo no es bueno… Los modelos con muchos parámetros tienden a exagerarla bondad del modelo. Corrección de “honestidad” sobre la bondad. Si al introducir variables vemos que no aumenta o que baja, deberíamos reconsiderar la complejidad del modelo. Sólo un 21% de la variabilidad presente Puede ser explicada por un modelo que contenga Al género como variable explicativa. Debe haber más razones para esa variabilidad Francisco Javier Barón López
¿Y si consideramos el nivel de estudios? • Hipótesis nula: • Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios • ¡Increíblemente simple! • Salario = b0 • Hipótesis alternativa: • El Género y los años de estudios tienen un efecto no nulo sobre el salario • Salario = b0 + b1 Genero + b2 Estudios Francisco Javier Barón López
Por supuesto, seguimos teniendoevidencia contra la hipótesis nula (modelo simple)Desde ahora lo ignoramos. La nueva variable aumenta notablemente la variabilidad explicada.¿Podremos mejorarlo introduciendo otra variable? Aparentemente estas variables tienen algo que decir, pero… ¿habrá variables confusoras? Francisco Javier Barón López
¿Y si añadimos la categoría laboral? • Hipótesis nula: • Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios y categoría laboral • ¡No me lo puedo creer! • Salario = b0 • Hipótesis alternativa: • El Género, los años de estudios y la categoría laboral directivo tienen un efecto no nulo sobre el salario • Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR +b4 DIRECT Francisco Javier Barón López
El nuevo modelo mejora claramente al anterior… …pero parece que parte del modelo no era necesario. El término que mide el efecto de ser empleado de seguridad no tiene un efecto muy diferente del caso base. Francisco Javier Barón López
Simplifiquemos el modelo • Hipótesis nula: • Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo • Salario = b0 • Hipótesis alternativa: • El Género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario • Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR + b4 DIRECT El modelo es más simple, pero no disminuye La variabilidad explicada ¡Lo preferimos así! Francisco Javier Barón López
¿Habrá interacciones? Hipótesis nula: • Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo • Salario = b0 • Hipótesis alternativa: • El género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario, y también tiene un “premio especial” ser hombre directivo (interacción). • Salario = b0 + b1 Genero + b2 Estudios + b3 DIRECT +b4 Genero*DIRECT Coeficiente de la interacción Si positivo: sinérgias Si negativo: efectos antagónicos Si nulo: No hay interacción En SPSS podemos introducir interacciones con otro modelo. Para seguir con el modelo de regresión introducimos otra variable. Francisco Javier Barón López
Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarlael efecto de la interacción? Tenemos evidenciaen contra de que ninguno de los coeficientes es nulo. ¿Deberíamos considerar más variables? ¿Más interacciones? Francisco Javier Barón López
Marco general (recordatorio) • Tenemos una serie de variables explicativas, X1,…,Xp • Numéricas • Ordinales • Dicotómicas • Cualitativas codificadas en forma de múltiples dicotómicas • Interacciones,… • Tenemos una sola variable explicada (univariante) • Numérica: Modelo lineal de regresión • Y = b0 + Σ bi xi • Dicotómica: Regresión logística • Ln (Odds) = b0 + Σ bi xi Francisco Javier Barón López
Regresión Logística • La variable respuesta (explicada) es dicotómica) • Vivo/Muerto • Sano/Enfermo • … • Claramente el modelo lineal tal cual no es adecuado. • En epidemiología es frecuente usar modelos multiplicativos en lugar de aditivos: • Fumar multiplica por 10 las “odds” de enfermedad. • Usar el casco disminuye por 20 la “odds” de lesión grave. • … Francisco Javier Barón López
Es decir, preferimos un modelo del tipo • Odds(fumar,beber,..) = Odds(base) * OR(fumar) * OR(beber)*… Francisco Javier Barón López
Fumadores Odds=1/12 * 4=4/12 Factor Riesgo: Fumar Odds Ratio= 4 Los individuos de control Ni fuman ni beben Odds=1/12 Factor Riesgo: Beber Odds Ratio= 3 Bebedores Odds=1/12 * 3=3/12 Fumadores bebedores Odds=1/12 * 4 * 3=12/12 Factor Riesgo: Fumar y Beber Odds Ratio= 3*4=12 Francisco Javier Barón López
El modelo de regresion logística es equivalente a: Variación de oddsdebido a x2 Odds Ratio Variación de oddsdebido a x1 Odds Ratio Odds caso base Francisco Javier Barón López
Caso simple: Una variable explicativa dicotómica • X1=0: No está presente el factor de riesgo • X1=1: Sí hay factor de riesgo Odds del caso base Odds Ratio De X1 Odds del caso base Francisco Javier Barón López
Si b1 es el coeficiente de la variable x1 • Si b1=0 entonces OR=1 • No es realmente un factor de riesgo • Si b1>0 entoces OR>1 • Aumenta el riesgo • Si b1<0 entonces OR<1 • Disminuye el riesgo Francisco Javier Barón López
Un ejemplo: Condenas a pena de muerte en Florida • Variables explicativas: • Raza de la víctima • 1=Blanco (factor de riesgo, con perdón) • Raza del acusado • 1=Negro (intuitivamente, factor de riesgo, ¡glubs!) • Variable explicada • 1=Condena a pena de muerte Francisco Javier Barón López
¿Será la raza negra del acusado un factor de riesgo? En principio un simple estudio descriptivo parece modtrar que no.Incluso parece que reduce el riesgo. Francisco Javier Barón López
¿Será la raza negra del acusado un factor de riesgo? • Veamos que dice el modelo de regresión logística: Francisco Javier Barón López
¿Será la raza negra del acusado un factor de riesgo? La prueba es no significativa El intervalo de confianza para OddsRatio incluye al valor1 No tenemos evidenciaen contra de que laraza no sea factorde riesgo. El coeficiente es negativo.Más bien debe reducir el riesgo ser Acusado de raza negra. Para encontrar la Odds Ratio hay que mirar la columna Exp(B) Odds Ratio Francisco Javier Barón López
¿Y si incluimos en el modelo la raza de la víctima? Aparentemente, al tener en cuenta la raza de la víctima, parece ser que si la víctima es blanca, la probabilidad de ser condenado a muerte es mayor. Veamos que dice el modelo logístico. Francisco Javier Barón López
Odds Ratios de cada factor de riesgo Con la confianza habitual 1 no forma parte de ningún intervalo de confianza. Ambos coeficientes son positivos.Parecen ser factores de riesgo. Significativos Francisco Javier Barón López