480 likes | 827 Views
Razones de Momios y Cocientes de Probabilidades. Conceptos y Estimación con Modelos Logísticos. Ignacio Méndez Ramírez IIMAS UNAM Hortensia Moreno Macías UAM I. Panorama de la plática. *Razones de Momios y Riesgos. Elementos y formulas *Formas de muestrear y estimadores.
E N D
Razones de Momios y Cocientes de Probabilidades. Conceptos y Estimación con Modelos Logísticos • Ignacio Méndez Ramírez IIMAS UNAM • Hortensia Moreno Macías UAM I
Panorama de la plática • *Razones de Momios y Riesgos. Elementos y formulas • *Formas de muestrear y estimadores. • *En casos y controles no se pueden estimar probabilidades , RR y RA. • * Modelos Logísticos para obtener y valorar Razones de Momios corregidos en todas las formas de muestrear. Estimación de probabilidades corregidas, en estudios con muestreo 1, causa a efecto, producto de binomiales o de cohortes; y también en forma 3, muestreo multinomial, encuesta. • *Sesgos en el muestreo 3, “de casos y controles” • *Ejemplos de estimación de probabilidades con intervalos de confianza. 2
MOMIO DEL EFECTO EN POBLACION CON LA CAUSA = P1/(1-P1) = (A/N1)/(B/N1) = A/B MOMIO DEL EFECTO EN POBLACION SIN LA CAUSA = P2/(1-P2) = (C/N2)/(D/N2) = C/D P(EFECTO /CAUSA) = P1= A/N1 P(EFECTO /NO CAUSA) = P2 = C/N2 RAZON O COCIENTE DE MOMIOS = P1/(1-P1)/[P2/(1-P2)] = (A/B)/(C/D) = AD/BC 4
P( CAUSA/ EFECTO) = P1e = A/M1 • P(NO CAUSA /EFECTO) = P2e = B/M2 MOMIO DE LA CAUSA EN POBLACION CONEFECTO = P1e/(1-P1e) = (A/M1)/(C/M1) = A/C MOMIO DE LA CAUSA EN POBLACION SIN EL EFECTO = P2e/(1-P2e) = (B/M2)/(D/M2) = B/D RAZON O COCIENTE DE MOMIOS = P1e/(1-P1e)/[P2e/(1-P2e)] = (A/C)/(B/D) = AD/BC * La razón de momios es la misma en los dos casos * 5
Parametros poblacionales Los importantes son: P1 y P2 6
Estimadores de Parametros poblacionales Estudios de causa a efecto Muestreo tipo 1.-Se muestrean de dos poblaciones, de la que tiene la causa y de la que no la tiene. Producto de binomiales. n1 y n2 son fijos Muestreo tipo 3.-Se muestrea de una población, los elementos se clasifican según causa: si o no; y según efecto: si o no. n1 y n2 son aleatorios. Muestreo multinomial. 7
Estimadores de Parametros poblacionales Estudios de efecto a causa (casos y controles) Muestreo tipo 2.-Se muestrea de dos poblaciones, de la que tiene el efecto y de la que no lo tiene. m1 y m2 son fijos 8
Ejemplo: ESTUDIO DE CAUSA A EFECTO - muestras de 100 en cada población - No hay error de muestreo Muestreos tipo 1 o 3 10
Ejemplo: ESTUDIO DE EFECTO A CAUSA. casos y controles. Muestras de 100 para casos y de 108 para controles. No hay error de muestreo 11
Las tasas de muestreo son π1 y π2, es decir se toma un π1% de los casos que existen y un π2% de los controles. En el ejemplo anterior se tenia π1=0.5 y π2=0.01.
Los estimadores son P*1 = π1A/[ π1A+ π2B] y P*2 = π1C/[ π1C+ π2D], que son sesgados. El momio del efecto estimado en la población con la causa es P*1/(1-P*1)=π1A/(π2B)=(π1/π2)(A/B) =(π1/π2)[(A/N1)/(B/N1)]=(π1/π2)[(P1/(1-P1)], donde P1 es la probabilidad correcta del efecto dada la causa (la de un estudio con muestreo tipo 1 o 3). Como no se conocen las tasas de muestreo de los casos y los controles, sólo se sabe que la de los casos es mucho mayor que la de los controles, pero no por cuanto, el momio y las probabilidades son sesgados. Al efectuar una Razón de Momios se cancela el sesgo, es el mismo en los dos momios. Ver Schlesselman(1982)
Hipótesis de Nulidad La hipótesis de nulidad es que no hay relación entre la hipotética causa y el efecto. Es decir que son independientes. Esto se refleja en que los riesgos o probabilidades del efecto con y sin la causa son iguales P1=P2, y por tanto los valores bajo hipótesis nula son RR= 1, RM =1 y RA = 0. La prueba de significancia lo que hace es valorar que tan probable es obtener un alejamiento del valor estimado del parámetro RR, RM o RA, como el obtenido en el estudio o aun mayor; éste es el llamado “Valor de P”. Otra manera mejor de evaluar la incertidumbre, es construir un intervalo de confianza al 95 %, para el verdadero valor del parámetro. Si el intervalo cubre al valor hipotético 1 para RR y RM , o cubre al 0 para RA , entonces no se rechaza la hipótesis de nulidad. Si el intervalo de confianza no cubre al valor hipotético, se rechaza la hipótesis de nulidad, pero además se conoce por donde puede estar el valor del parámetro 14
Modelo logístico Esta es la probabilidad especificada según el modelo, de un elemento con la propiedad A, en una población que tiene como valores constantes los especificados en las X1, X2, …Xp. Todas las definiciones y modelos anteriores son válidos para los muestreos tipo 1 y 3, “de causa a efecto” y “multinomial
El logaritmo del momio del efecto estimado con el muestreo de casos y controles tiene un término adicional, log(π1/π2), al que se tiene con el muestreo de “causa a efecto” o el multinomial. Es ese término desconocido el que impide estimar probabilidades, los paquetes al tener datos que se obtuvieron con “casos y controles” proceden a laestimación como si fuera muestreos de tipo 1 o 3, entonces su estimación de la ordenada al origen incluye este término. Así lo que se obtiene en los casos y controles es ´ Donde , sin embargo los otros coeficientes son correctos, esto es son los mismos que los que se obtendrían si el estudio fuera de causa efecto o multinomial
Por el procedimiento de máxima verosimilitud, en forma iterativa, se estiman los parámetros , las betas y con ellas las probabilidades.
Para interpretar los resultados de los modelos logísticos lo mejor es averiguar directamente como cambian las Pi al cambiar las poblaciones que se estudian. Esto siempre que el proceso de muestreo sea del tipo 1, “de causa a efecto”, o del 3, “muestreo multinomial”, para que esas estimaciones de probabilidades no sean sesgadas. El cambio de las probabilidades estimadas al pasar de unas poblaciones a otras se logra según el tipo de variables que definen las variables causales o confusoras. Para variables categóricas, se obtienen la medias de las Pi en cada categoría de las variables independientes y para variables numéricas se observa con una gráfica el cambio de los valores de Pi al cambiar la variable numérica Xw. En el caso de interacciones hay que obtener combinaciones de categorías o bien gráficas de contorno, o varias líneas para estudiar las Pi en función de una variable categórica y otra numérica. Esto esta recomendado en Brant (1996).
Existe una excepción que es cuando el diseño es de casos y controles, en esta situación no es válida la estimación de las Pi, por que resultan sesgadas. Entonces se deben usar los estimadores de las razones de momios, RM, pero teniendo cuidado de no interpretarlos como si fuesen Razones de Probabilidades o RR, salvo en el caso de tener información ajena al estudio, que establezca que las probabilidades de que un elemento presente la categoría A, sean pequeñas (menores que 0.1) en las diferentes poblaciones comparadas, es decir con los varios valores de las Xs. Si con información ajena al estudio, se puede suponer conocida una probabilidad basal, la Pi para un conjunto de las Xs conocido, entonces en el valor de la RM estimada ( razón de momios de poblaciones con Xs y con X´s) se substituye esa Pi y será factible despejar la Pi´, la probabilidad estimada del efecto en la otra población con X`s
Razón de momios ajustada Riesgo relativo ajustado
Muchos paquetes estadísticos, además de reportar las betas , obtienen los exponentes o RM estimados, y sus intervalos de confianza. Muy frecuentemente se interpretan erróneamente, ya que se usan como riesgos relativos o razones de prevalencia. Esto es una buena aproximación únicamente en aquellos casos en que ambas P con Xw+1 y con Xw son muy pequeñas, digamos menores de 0.1. Como se señaló, si se tienen muestreos tipo 1 o 3, siempre es mejor despejar las probabilidades e interpretarlas. Es frecuente en los trabajos de epidemiología que se cometa el error de interpretar las RM como RR.
De 151 estudios que usan Odds ratios (OR), 107 eran adecuados para estimar un razón de riesgos (RR). La diferencia entre OR y RR fue mayor que 20 % en 47 (44%). El OR parece magnificar un efecto, comparado con el RR. En 39 (26%) artículos el OR se interpretó como RR sin una justificación explicita. Conclusión: El OR es usado frecuentemente y a menudo malinterpretado, en la literatura actual de obstetricia y ginecología. Holcomb, W., T. Chaiworapongsa, D. Luke and K. Burgdorf. “ AnOddMeasure of Risk: Use and Misuse of theOdds Ratio” Obstetrics and Gynecology. Vol 98. No.4, October 2001. pp 68-688
Valores de P2 como función de P1, para tres valores de RM, 3, 5 y 8. Se puede ver que el valor de P2 puede ser pequeño o grande según los valores de P1.
Valor de RR, en función de P2 con RM constantes. Se puede ver por ejemplo con RM de 8, que el RR puede llegar a ser de 3 si P2 es de 0.25. Decir que P1 es ocho veces mayor que P2, al interpretar RM como RR es un error grave, en este caso solo es 3 veces mayor. Con P2 de 0.5 y con RM de 5, el valor de RR es de 1.668, de nuevo decir que P1 es cinco veces mayor que P2, al interpretar RM como RR es un error grave, en este caso solo es 1.668 veces mayor.
Para obtener intervalos de confianza para las probabilidades estimadas, a partir de los resultados de un paquete estadístico, que reporta los logaritmos de los momios estimados, las y sus intervalos de confianza. Estos valores se obtienen al estimar también el error estándar de las , lo que se hace basados en propiedades asintóticas de la distribución de las . Con muestras grandes esto estimadores se acercan a la distribución normal y se estima su error estándar EE( ), como la raíz cuadrada del elemento correspondiente en la matriz de varianzas. Entonces los límites de confianza al 95% son: limite inferior -1.96[EE( )] y limite superior +1.96[EE( )]. A partir de estos valores se pueden obtener las estimaciones de las probabilidades con el límite inferior, el estimador de máxima verosimilitud y con el límite superior. Para posteriormente graficar o evaluar estas tres estimaciones de probabilidad según los factores causales o de confusión.
Ejemplo 1.Casos de acusados de asesinato en Florida, EUA. Las frecuencias de sentencia de muerte u otra como variable dependiente del color de la victima y el del acusado. Se supone que es un estudio de causa a efecto, ya que se muestrearon los expedientes durante un cierto tiempo, inicialmente clasificados por el color de la víctima y del acusado, posteriormente se observa el resultado del juicio, la sentencia. Los datos se presentan en la tabla siguiente:
Nominal Logistic Fit for sentencia Freq: frecuencia Whole Model Test Lack Of Fit
Parameter Estimates For log odds of muerte/otra Effect Likelihood Ratio Tests
Estimadores de máxima verosimiltud Estimadores en el limite inferior del efecto de Raza de victima Estimadores en el limite superior del efecto de Raza de victima
Podemos decir que la probabilidad estimada de sentencia a muerte, para acusados negros con victimas blancas es de 0.167 con intervalo de confianza al 95% entre 0.128 y 0.223
Ejemplo 2.- Se estudiaron 413 trabajadores de una industria del cemento, con su historia de trabajo por varios años se construyó un índice del grado de exposición a los polvos de la caliza y otros componentes del cemento, se le llamo “nueva”. Además la edad de los trabajadores es una variable confusora para la presencia de asma y otros padecimientos. El estudio esta en Alvear y cols. (1999). Se trata de un estudio transversal de causa a efecto, muestreo multinomial. Se ajustó un modelo logístico para valorar el impacto de la “nueva’ modificado por la edad del trabajador sobre la presencia o ausencia de asma. Ahora se trata de dos variables numéricas con muchos valores y su interacción. Así que se considera una población para cada edad y valor de ‘nueva’ estudiados.
Parameter Estimates For log odds of 0/1 A pesar de que la p para el término de la interacción es mayor de 0.05, se considera necesario incluirla en el modelo, ya que éste empeora si se omite ese término
La estimación por máxima verosimilitud de la probabilidad de asma es: En el limite inferior al 95% se tiene En el limite superior al 95% se tiene
Limite inferior al 95 %. Casi no se observa la interacción. Estimador de máxima verosimilitud. Se nota claramente la interacción en el “efecto del trabajador sano” Limite superior al 95 %. Se observa mas fuerte la interacción.
Ejemplo 3.- Accidentes de automóviles.- Tabla de Contingencia de 2x2x2x2. Según tipo de auto, forma de accidente, tipo de daño y si el conductor fue arrojado o no del vehículo. Es una encuesta transversal, es decir muestreo tipo 3, muestreo multinomial. Se quiere evaluar el impacto de las condiciones sobre el daño. Christensen (1990). For log odds of Severo/no severo Parameter Estimates
Razones de momios Coeficientes de regresión:
Ejemplo 4.- Diagnóstico del Corazón.- Se tiene una muestra de 800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano Noriega, Maestría “Salud en el Trabajo”, UAM-X). Es una encuesta, es un muestreo multinomial. Entre varios diagnósticos y varias exigencias de trabajo se selecciona la relación entre la edad, el trabajo aburrido y esfuerzos en el mismo y su relación con el diagnóstico de patología del corazón. Esta relación se selecciona por que es donde hay una fuerte interacción triple. Coeficientes de regresión logística
De nuevo, las Razones de Momios son difíciles de interpretar y de evaluar. Por esto se recomienda estimar probabilidades y sus intervalos de confianza para la interacción triple. Consideremos dos variables Xesf=0 si hay esfuerzos y Xesf=1 si no los hay. Xabu=0 si tiene trabajo aburrido y Xabu=1 si no lo tiene. La media de edad es 32.155. Estimador de máxima verosimiltud
Si en el término de interacción se usan los límites de confianza inferior : Si en el término de interacción se usan los límites de confianza superior :
En el límite inferior al 95%, se observa la misma tendencia que con el de máxima verosimiltud, pero ahora las diferencias en probabilidades son menores. Aun hay efectos antagónicos pero menos acusados Las probabilidades aumentan con la edad pero mucho más si solo hay trabajo aburrido, un poco menos con solo esfuerzos y poco con ambos, casi nada cuando no esta ninguna de las dos exigencias. Hay un efecto antagónico, la presencia de ambos riesgos produce menores probabilidades de diagnóstico de corazón, que cada uno de ellos por separado. En el limite superior al 95%, las diferencias entre probabilidades son mucho mayores (es más fuerte la interacción). Además para la ausencia y la presencia de ambas exigencias, no hay efecto de la edad, el antagonismo se hace total.