460 likes | 612 Views
Curso de Bioestadística Parte 9 Comparación de dos medias. Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México. Presentación.
E N D
Curso de BioestadísticaParte 9Comparación de dos medias Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México
Presentación • Médico Cirujano por la Universidad Autónoma de Guadalajara. • Pediatra por el Consejo Mexicano de Certificación en Pediatría. • Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres. • Master en Ciencias con enfoque en Epidemiología, Atlantic International University. • Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University. • Profesor Asociado B, Departamento de Enfermería y Obstetricia, División de ciencias de la Salud e ingenierías, Campus Celaya Salvatierra, Universidad de Guanajuato. • padillawarm@gmail.com
Competencias • Aplicará prueba de Z para obtener inferencias de la comparación de dos medias pareadas. • Aplicará prueba de Z para obtener inferencias de dos medias independientes. • Aplicará prueba de t para dos medias pareadas en una muestra pequeña. • Aplicará prueba de t para dos medias independientes en una muestra pequeña. • Obtendrá el intervalo de confianza para dos medias pareadas e independientes.
Introducción • Con frecuencia queremos hacer comparaciones de dos grupos. • Los métodos estadísticos usados para la comparación de dos medias dependen de cómo las dos medias fueron obtenidas. Los datos pueden ser obtenidos de muestras pareadas o no pareadas.
Datos pareados • ¿Cómo obtenemos datos pareados? • Muestras pareadas ocurren cuando las observaciones individuales en la primera muestra son pareadas a las observaciones individuales de la segunda muestra. • Para datos cuantitativos usualmente ocurre cuando hay mediciones repetidas en la misma persona.
Ejemplo • En un estudio para determinar si las mediciones de peso al nacer son adecuadas, se comparó el peso al nacer de recién nacidos de un hospital en Celaya, Gto. • Las mediciones fueron realizadas por diferentes personas, para controlar el sesgo de medición, estando un observador cegado a la medición del otro observador.
Datos no pareados • ¿Cómo obtenemos datos no pareados? • Obtenemos datos no pareados cuando observaciones individuales en una muestra son independientes de las observaciones individuales de la segunda.
Ejemplo • Para estudiar los efectos de un nuevo medicamento para tratar la carga parasitaria de Ascaris lumbricoides, los pacientes fueron aleatorizados para recibir nitazoxanida (grupo A) y albendazol (grupo B). • El efecto del medicamento en cada grupo fue medido y comparado. • En el análisis de datos pareados calculamos la diferencia entre la primera y la segunda medición. Esto nos da una muestra de diferencias, para luego aplicar los métodos de análisis para datos cuantitativos de una muestra.
Análisis de datos cuantitativos pareados • Cuando analizamos datos pareados, lo primero es calcular la diferencia entre las dos observaciones individuales en cada par. • Se midieron los pesos al nacer del recién nacidos en Celaya, por dos observadores.
Análisis de datos cuantitativos pareados • Para evaluar la diferencia en mediciones pareadas podemos calcular la media de las diferencias y su intervalo de confianza; también podemos calcular si la media de las diferencias es significativamente diferente de 0. • La notación que usamos para indicar la media de las diferencias y desviación estándar en la muestra y la población se muestran:
Intervalo de confianza • Si no hay diferencia entre las mediciones pareadas, la media de las diferencias será 0. • Para calcular el intervalo de confianza de la media de las diferencias de la muestra y probar la hipótesis de que es igual a 0, necesitamos conocer: • La media de las diferencias • La desviación estándar de las diferencias • El error estándar de la media de las diferencias
Intervalo de confianza • Podemos calcular el intervalo de confianza alrededor de la media de las diferencias de la muestra en la misma forma que los hicimos para la media de una muestra. • El intervalo de confianza al 95% nos dice que tenemos 95% de confianza de que la verdadera media de la población está entre el intervalo de confianza al 95% a los lados de la media de la muestra.
Intervalo de confianza • La fórmula general para el intervalo de confianza al 95% es: • Estimación de la muestra ±1.96 x ES de la estimación de la muestra • Entonces el intervalo de confianza al 95% para la media de las diferencias es: • δ±1.96 x (s(δ)/√n) • δ es la media de las diferencias. • 1.96 es el multiplicador que usamos al calcular el intervalo de confianza al 95%. • Si lo calculamos al 90% usamos 1.64 como multiplicador.
Ejemplo • Intervalo de confianza al 95% • d de pesos al nacer = -34.0 • s= 140.94 • ES= 140.94/√10=44.52 • -34±1.96 (44.52) = -121.42 a 53.42
Ejemplo • Intervalo de confianza al 90% • d de pesos al nacer = -34.0 • s= 140.94 • ES= 140.94/√10=44.52 • -34±1.64 (44.52) = -107.14 a 39.4
Prueba de hipótesis para una media de diferencias • Un intervalo de confianza al 95% nos da un rango de valores a los lados de la media de las diferencias que estamos confiados en un 95% que incluye la media de diferencias en la población. • También podemos calcular la probabilidad de que, en promedio, no hay diferencia entre las observaciones pareadas en la población, usando una prueba de hipótesis.
Prueba de hipótesis para una media de diferencias • La hipótesis nula es que la media de las diferencias en la población es cero: Ho: δ = 0 • Esto es equivalente a decir que la distribución de la media de las diferencias de la muestra es Normal, con media 0 y un error estándar que depende de la desviación estándar de la diferencia en la población. • La hipótesis alternativa es que la media de la diferencia en la población no es cero: HA: δ ≠ 0
Prueba de hipótesis para una media de diferencias • La prueba de hipótesis: • Para probar la hipótesis nula calculamos la prueba Z Media de las diferencias de la muestra – media de las diferencias de la hipótesis d - 0 z = ----------------------------------------------------- = ------------ error estándar de la diferencia de ES(d) medias de la muestra • Donde la media de las diferencias de la hipótesis es cero.
Prueba de hipótesis para una media de diferencias • Calcular el valor de z en la prueba de hipótesis, nos dice a cuantos errores estándar de la media observada está el centro de la distribución, definida por la hipótesis nula. δ - 0 Z= ----------------- S(δ) /√n
Ejemplo • Hemos visto que la media de la diferencia de peso en 10 recién nacidos fue de -34, con s=140.9 e intervalos de confianza al 95% de -121.42 a 53.42 gr. • Queremos encontrar si las mediciones tomadas por los dos observadores fueron realmente diferentes.
Ejemplo • Debemos señalar la hipótesis nula: • “En promedio, todas las mediciones posibles tomadas por los dos observadores son idénticas”, o • La media de las diferencias en la población es cero. • La hipótesis alternativa será: la media de la diferencia en la población no es cero.
Ejemplo -34 – 0 Para probar la hipótesis calculamos z = ----------- = - 0.76 44.52 • Asumiendo que la media de las diferencias está Normalmente distribuida con media de cero, el resultado de la prueba dice que la media de las diferencias estimada está a -0.76 errores estándar del centro de la distribución. • Refiriendo el valor de z de -0.76 a las tablas de dos colas de la distribución Normal estándar el valor de p es 0.44. • La conclusión es que aceptamos la hipótesis nula y decimos la variación de muestreo es una probable explicación para las diferencias en las medias.
Como obtener el valor de p • En la tabla de la distribución Normal o Z, buscamos en la columna Z el valor que obtuvimos con nuestra prueba y vemos en la columna p el valor que corresponde. • Esta tabla se puede encontrar en libros de texto de Bioestadística.
Muestras pareadas pequeñas • Cuando el tamaño de muestra es pequeño, la distribución de las muestras no es exactamente Normal, pero sigue la distribución t. • Por este motivo, si el tamaño de muestra es pequeños (menos de 50) usamos los valores de la distribución t, para el cálculo del intervalo de confianza y prueba de hipótesis.
Intervalo de confianza para muestras pareadas pequeñas • La fórmula para el intervalo de confianza al 95% es estimación ± t0.05 (ES) • Donde estimación es la media de las diferencias • t0.05 es el valor de la distribución t a 0.05 de p con n-1 grados de libertad. • La primera columna de la distribución t es grados de libertad que corresponde a n-1. Vamos a la derecha hasta donde cruce el valor que corresponda con p 0.05 y ese es el multiplicador que usamos para el intervalo de confianza.
Prueba de hipótesis para muestras pareadas pequeñas • La fórmula para la prueba de hipótesis es: t = media de diferencias – 0 /ES • La fórmula es similar que la prueba de Z, sólo que el resultado, para obtener el valor de p, se busca en la tabla de la distribución t. • La primer columna es grados de libertad (n-1) y se busca a la derecha el valor de t que obtuvimos y en la columna se comprueba el valor de p.
Análisis de muestras independientes • Difiere del análisis de datos pareados, ya que observamos la diferencia entre dos medias independientes en lugar de la media de las diferencias de dos observaciones pareadas. • Ejemplos • ¿Los fumadores tienen diferente presión arterial que los no fumadores? • En una muestra de fumadores y no fumadores: • La presión arterial sistólica fue en promedio de 148 y entre no fumadores de 138. • La diferencia en medias es 148-138 =10.
Análisis de muestras independientes • Notación: • Ya que estamos observando dos poblaciones independientes y dos muestras son necesarias, necesitamos notaciones adicionales. Que se muestran en la tabla de abajo: • Recuerde que usamos letras griegas para parámetros de la población y letras latinas para estimaciones de la muestra: • Los números inferiores nos sirven para diferenciar entre la muestra 1 y la muestra 2, y entre las poblaciones 1 y 2. Población Muestra 1 2 1 2 _ _ Media μ1 μ2 X1 X2 Desviación estándar σ1 σ2 s1 s2
Distribución de muestreo para dos muestras independientes • La distribución de muestreo de la diferencia entre dos medias independientes es encontrada usando los mismos procedimientos usados para una sola muestra. • Tomamos repetidamente muestras aleatorias de tamaño n1 y de tamaño n2 de una segunda población y cada vez calculamos las medias (x1,x2) y las desviaciones estándar (s1, s2) en ambas poblaciones y luego medimos la diferencia entre las medias para cada par de muestras. • El resultado es una distribución de muestreo de diferencias entre las dos medias independientes.
Distribución de muestreo para dos muestras independientes • Generando esta distribución podemos ver que: 1.- La media de la distribución de muestreo es el valor de la población, que es la diferencia entre las dos medias de la población. 2.- La desviación estándar de la distribución de muestreo depende de n1 y n2, que son los tamaños de muestra. 3.- La forma de la distribución se vuelve más parecida a la Normal cuando n1 y n2, se incrementan. • Sabemos que la distribución de muestreo de cualquier estimación de la muestra puede ser inferida de los datos reunidos de sólo una muestra. • Los mismos principios aplican en este caso: la distribución de muestreo de la diferencia de medias puede ser inferida de sólo un grupo de dos muestras. Para realizar esto, necesitamos: • La diferencia entre las dos medias de las muestras • El error estándar de la diferencia entre las dos medias de las muestras
Error estándar para la distribución de la diferencia de medias • El error estándar de la diferencia entre dos medias independientes es la combinación de los errores estándar de las dos distribuciones de muestreo independiente. • Sabemos que el error estándar de una media de la muestra es: s ES = -------- √ n • Varianza de la media es el cuadrado del error estándar: Varianza = σ2 / n
Error estándar para la distribución de la diferencia de medias • Se puede mostrar que la varianza de dos medias independientes es igual a la suma de las varianzas de las dos medias de las muestras, ya que: σ1 σ2 ES (X1) = ------- ES (X2) = -------- n n _ _ σ21 σ22 Varianza (X1 –X2) = varianza de X1 + varianza de X2 = --------- + ------- n n • Las varianzas son sumadas debido a que cada una de las muestras contribuye al error de muestreo de la distribución de las diferencias. • Entonces, el error estándar de la diferencia entre dos muestras independientes es dado por: σ21 σ22 ES (X1 – X2) = √ ------- + ------ n1 n2
Error estándar para la distribución de la diferencia de medias • En la mayoría de las situaciones no conocemos las desviaciones estándar de la población (σ1 y σ2); en la práctica comúnmente, usamos las desviaciones estándar de la muestra (s1 y s2), por lo que: s21 s21 ES(X1 – X2) = √ ------- + --------- n1 n2
Intervalo de confianza para la diferencia de dos medias • Asumiendo que la distribución de muestreo de (X1 – X2) es Normal, podemos calcular el intervalo de confianza para la diferencia entre dos medias usando la fórmula general: Diferencia en medias ± 1.96 (ES (X1 –X2)) • Para un intervalo de confianza al 95%, asumiendo distribución Normal: _ _ (X1 – X2) ± 1.96 [√(s21 / n1) + (s21 / n2)]
Ejemplo • En un estudio para evaluar la eficacia de la solución de rehidratación oral (SRO) en niños con diarrea aguda, 40 niños estuvieron en el grupo de tratamiento y 40 en el grupo control. Se midió la duración media en horas de la diarrea y la desviación estándar. Grupo n Media de duración de diarrea s Tratamiento 40 72 10 Control 40 120 12
Ejemplo • Para calcular el intervalo de confianza al 95% para la diferencia en medias de muestras independientes, necesitamos primero calcular la diferencia en medias y el error estándar: _ _ X1 – X2 = 72 – 120 = - 48 horas s21 s22 102 122 ES(X1 – X2) = √ -----+ ----- = √------ + ---- =√2.5+3.6 = 2.47 n1 n2 40 40 95% IC = -48 ± 1.96 (2.47)= - 52.8 a – 43.16
Ejemplo • La diferencia en medias fue de -48 horas con un error estándar de 2.47. • Los intervalos de confianza al 95% nos dicen que tenemos 95% de confianza en que la diferencia en las medias de la duración de diarrea en toda la población está entre – 52.8 horas y -43.16 horas. • Como no incluye la unidad, puedo adelantar que las diferencias en las medias son estadísticamente significativas.
Prueba de hipótesis para dos medias independientes • Para calcular la probabilidad (valor de p) de que las dos medias son iguales, usamos la prueba de hipótesis. • Usamos la prueba de z en la misma forma, que lo hicimos para la media de diferencias de muestras pareadas: • La hipótesis nula es que las dos medias son iguales: Ho: μ1 – μ2 = 0 • La hipótesis alternativa es: H1: μ1 - μ2 ≠ 0 • Así, la fórmula para la prueba de z es: _ _ (X1 – X2) - 0 z = ------------------ ES(X1 –X2) ES (X1 –X2) = √(s21 /n1) + (s21 /n2)
Ejemplo • Apliquemos la prueba de hipótesis para el estudio de solución de rehidratación oral, de que la duración de la diarrea es en promedio la misma para ambos grupos. • La diferencia de medias es – 48 horas. El error estándar es 2.47. - 48 - 0 Z = ----------- = - 19.43 2.47 • Esto nos dice que la diferencia observada es -19.43 errores estándar del centro de la distribución (0). • El valor de p, para z = - 19.43 es <0.0001 • Si no hubiera diferencia en la duración de la diarrea entre los dos grupos, debería haber una pequeña oportunidad (p<0.0001) de observar una diferencia tan extrema como la observamos. • Podemos decir que es más probable que la diferencia entre las dos medias sea diferentes, o sea, que la diferencia en el promedio del grupo con SRO con el control, son estadísticamente diferentes.
Muestras pequeñas con dos medias independientes • Cuando comparamos dos muestras independientes que son pequeñas, usamos la distribución t en lugar de la distribución Normal para calcular los intervalos de confianza y para probar hipótesis. • El procedimiento es similar al que hemos usado para datos de una muestra, con una excepción: el cálculo del error estándar. • La varianza común: • Con muestras pequeñas estimamos una varianza común usando los datos de dos muestras independientes. Es el promedio de las dos varianzas: (n1 – 1)s21 + (n2 -1)s21 S2 = --------------------------- (n1 – 1) + (n2 -1)
Muestras pequeñas con dos medias independientes • El error estándar de la diferencia entre la media de la muestra es: ES(X1-X2) = s x √1/n1 + 1/n2
Ejemplo • En un estudio para el tratamiento de anemia por deficiencia de hierro, con dos tipos diferentes de hierro, se aleatorizaron los escolares de un pueblo, para recibir uno u otro tratamiento. • Al inicio, los niveles de hemoglobina (HB) en g/Dl. eran similares en ambos grupos. • Después de 3 meses de tratamiento se midieron los niveles de HB.
Ejemplo Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5 Hierro B 13 12.1 1.1 Intervalo de confianza al 95% = diferencia de medias ± multiplicador t0.05 x ES Multiplicador t0.05 con n-2 grados de libertad = 2.056 S2 = (15-1)0.52 + (13 -1)1.12 /15-1 + 13-1 =3.5 +14.52/26 = 18/26 =0.69
Ejemplo Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5 Hierro B 13 12.1 1.1 Intervalo de confianza al 95% = 14.8 - 12.1 ± 2.056 x 1.21 ES = s √1/n1 + 1/n2 = √0.69 x√1/15 + 1/13= 0.83 x 0.379 = 0.32 IC95% = 2.7± 0.66 = 2.04 a 3.36
Ejemplo Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5 Hierro B 13 12.1 1.1 Ho: µ1=µ2 o µ1-µ2= 0 HA: µ1≠µ2 o µ1-µ2≠ 0 t= (14.8 - 12.1)-0 / 0.32 = 8.44 gl n-2 = 26 p<0.05
Bibliografía • 1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173. • 2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4. • 3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.