620 likes | 1.22k Views
DISTRIBUCION BINOMIAL. Mario Briones L. MV, MSc 2005. DISTRIBUCION BINOMIAL. Muchas poblaciones consisten sólo de dos tipos de elementos: par-impar aprueba-reprueba vivo-muerto preñada-seca presente-ausente positivo-negativo hembra-macho El investigador se interesa en la proporción,
E N D
DISTRIBUCION BINOMIAL Mario Briones L. MV, MSc 2005
DISTRIBUCION BINOMIAL Muchas poblaciones consisten sólo de dos tipos de elementos: par-impar aprueba-reprueba vivo-muerto preñada-seca presente-ausente positivo-negativo hembra-macho El investigador se interesa en la proporción, porcentaje o número de individuos en cada una de las dos clases.
Ejemplos: • Porcentaje de caiquenes machos con presecia de parásitos gastrointestinales • Porcentaje de perros que presentan displacia acetabular • Porcentaje de peces que mueron por una enfermedad • Porcentaje de individuos que presenta un gen determinado
p q p + q = 1 Al muestrear, a cada observación que cae en la clase de interés primario se le llama éxito. En una muestra de tamaño n la probabilidad de obtener 0, 1, 2, 3..., n éxitos se calcula fácilmente a través de la distribución llamada binomial o de Bernoulli
Si r miembros de una muestra de tamaño nposeen un determinado atributo, el estimador muestreal de la proporción de la población que posee este atributo es p= r/n.
RECUERDE QUE UNA VARIABLE ES UN ATRIBUTO QUE PUEDE SER DIFERENTE ENTRE INDIVIDUOS
MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL El propósito de recolectar este tipo de datos es generalmente estimar la proporción de unidades de la población que pertenecen a una de las clases, generalmente la primera de ellas (ej. Proporción o porcentaje de individuos positivos a una enfermedad).
MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL Para determinar la media y la desviación supongamos que se construye una variable que toma el valor 1 para cada unidad de la población que pertenece a la clase A y el valor 0 para cada unidad que pertenece a la clase B.
MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL m es la proporción enla población que pertenece a la clase A En un problema de dos clases, se representa la proporción en la primera clase por p y en la segunda por q y q = 1 - p
MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL En la población, X sigue una distribución de probabilidad de Valor de X Probabilidad, P(X) X - m 0 q - p 1 p 1 - p= q La media poblacional es m = SPX= q(0) + p(1) = p Para la varianza:s2= SPX2 - m2 = p - p2 =pq La desviación estándar: s = pq
MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL p q s2 s Relación entre frecuencia y desviación estándar en una distribución binomial
VARIANZA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL Estimación a partir de una muestra binomial de tamaño n Caso 1: para el número de éxitos, r: m= np s2 = npq s = npq Caso 2: para la proporción de éxitos, p= r/n: m= p s2= pq/n s = pq/n
Ejemplo De un total de 74 (n) ovejas en un rebaño, 34 son blancas y 40 son negras. ESTIMADORES DE TENDENCIA CENTRAL PARA LA PROPORCIÓN DE EXITOS Proporción p= 34/74 = 0,4595 Proporción q= 40/74 = 0,5405 • Asumiendo que los éxitos son la presencia de ovejas blancas
Ejemplo ESTIMADORES DE DISPERSION PARA EL NUMERO DE EXITOS VARIANZA= npq = 74 x 0,4595 x 0,5405 = 18,38 DESVIACION ESTANDAR= 18,38 = 4,29 ESTIMADORES DE DISPERSION PARA LA PROPORCION DE EXITOS VARIANZA= pq/n = (0,4595 x 0,5405) / 74 = 0.00336 DESVIACION ESTANDAR= 0,00336 = 0,0579
LIMITES DE CONFIANZA PARA UNA DISTRIBUCION BINOMIAL En muestras de gran tamaño el estimador binomial p tiene una distribuciónaproximadamente normal distribuida alrededor de la proporción poblacional p con desviación estándar pq/n. La probabilidad es aproximadamente 0.95 de que p caiga entre los límites p - 1.96 pq/n y p + 1.96 pq/n
Ejemplo Supongamos que 200 individuos en una muestra de 1000 poseen un atributo, los límites de confianza de 95% son: 0.2 1.96 (0.2)(0.8)/1000= 0.2 0.025 El intervalo de confianza para p se extiende desde 0.175 hasta 0.225 en porcentaje: desde 17.5% hasta 22.5% para los límites de 99% se reemplaza 1.96 por 2.576
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES: • Ej. Los datos provienen de un estudio canadiense en gran escala acerca de la relación entre el hábito de fumar y la mortalidad. A partir de un cuestionario inicial en 1956, varones pensionados de guerra se clasificaron de acuerdo a sus hábitos de fumar.
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES • Consideraremos dos clases: a)no fumadores y b) fumadores de pipa. Se obtuvo luego un informe acerca de la muerte de cualquiera de los individuos en los siguientes seis años. Por lo tanto los pensionados fueron clasificados de acuerdo a su estatus (vivo, muerto) al final del período.
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES • Ya que la probabilidad de muerte depende en gran medida de la edad, la comparación hecha aquí se circunscribe a personas que tenían entre 60 a 64 años al inicio del estudio. La siguiente es la Tabla de Contingencia que agrupa los individuos en las cuatro clases:
Muestra 1 Muestra 2 no fumadores fumadores Total Muerto 117 54 171 Vivo 950 348 1298 Total n1=1067 n2= 402 1469 Proporción muertos p1=0.1097 p2=0.1343 p=0.1164 Al observar la diferencia entre los porcentajes de mortalidad de los grupos de fumadores y no fumadores... Es una diferencia real o surge de error de muestreo?
COMPROBACION DE HIPÓTESIS: HIPOTESIS NULA: Las proporciones de mortalidad, 117/1067 y 54/402 son estimadores de la misma cantidad. HIPOTESIS ALTERNA: Las proporciones de mortalidad son diferentes
COMPROBACION DE HIPÓTESIS: Ya que p1 y p2 se distribuyen de modo aproximadamente normal, su diferencia, p1 - p2 también se distribuye normalmente. La varianza de ésta diferencia es la suma de las dos varianzas. V(p1-p2)= s2p1 + s2p2= p1q1/n1 + p2q2/n2 bajo la hipótesis nula p1=p2= p
COMPROBACION DE HIPÓTESIS: y el error estándar de la diferencia se distribuye normalmente con media 0 y es igual a EE= pq/n1 + pq/n2 la hipótesis nula no especifica el valor de p. Como estimador podemos sugerir p= 0.1164
COMPROBACION DE HIPÓTESIS: La desviación normal z es: p1 - p2 z= pq (1/n1 +1/n2) 0.1097 - 0.1343 - 0.0246 z= = = - 1.311 (0.1164)(0.9936)(1/1067 + 1/402) 0.01877
REGLA DE DECISIÓN, DECISIÓN ESTADISTICA Y CONCLUSIÓN En la tabla de z, independientemente del signo, 1,311 es menor que el valor de z (1,96) que cubre un área de 95% bajo la curva. Por lo tanto, se acepta la hipótesis nula. La diferencia observada en la proporción de fumadores y no fumadores muertos al cabo del periodo de observación, se debe al azar, por ej. Por error de muestreo. Puede considerarse que la proporción es una sola: 0,1164.
PRUEBA DE X2 (CHI CUADRADO) H0: no existe diferencias en la mortalidad de personas fumadoras y no fumadoras, en un periodo determinado de tiempo. HA: la proporción de personas muertas es mayor en el grupo de fumadores, en un periodo de tiempo.
PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 Observado Observado Total 1067 402 1469
PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Total 1067 402 1469
PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Esperado 942.8 Total 1067 402 1469
PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Esperado Esperado 942.8 355.2 Total 1067 402 1469
ESTADISTICO DE PRUEBA Grados de libertad, en general= filas-1 x columnas-1
En el ejemplo: Regla de decisión (Alfa= 0.05, gl= 1)= 3,84 Estadígrafo de prueba calculado: X2= (117-124.2)2/124.2 + (54-46.8)2/46.8 + (950-942.8)2/942.8 + (348-355.2)2/355.2 =51.84/124.2 + 51.84/46.8 +51.84/942.8 + 51.84/355.2 =0.4174 + 1.1077 + 0.0550 + 0.1459 =1.726
En el ejemplo: Conclusión: Con los datos disponibles no es posible afirmar que los fumadores de pipa tienen una menor sobrevida que los no fumadores.
OTRO EJEMPLO: En un estudio hecho para determinar si existe una tendencia familiar en el cáncer de mamas, se investigo la frecuencia de cáncer de mamas encontrado en parientes de i) mujeres con cáncer y ii) mujeres sin cáncer. Los datos tabulados a continuación se refieren a las madres de los sujetos.
PRUEBA DE X2, TABLA DE CONTINGENCIA Cáncer mamario en el sujeto Si No Total Cáncer mamario Si 7 (5) 3 (5) 10 en la madre No 193 (195) 197 (195) 390 Total 200200 400
ESTADIGRAFO DE PRUEBA CALCULADO X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195 = 4/5 + 4/5 + 4/195 + 4/195 = 0.8 + 0.8 + 0.0205 + 0.0205 = 1.641
Tamaño de muestra para describir una variable binomial • Al igual que en el caso de una variable cuantitativa, el tamaño apropiado para describir una proporción depende de: • La variabilidad de la característica. • Del grado de error admisible para el estimador.
Tamaño de muestra para describir una variable binomial • Al igual que en una variable cuantitativa, el tamaño apropiado se deriva de la magnitud deseada para el intervalo de confianza, con una probabilidad determinada, y se despeja n • p1.96 pq/n (Intervalo de confianza de 95%)
Tamaño de muestra para describir una variable binomial • El tamaño apropiado para un intervalo de confianza determinado es: • donde L es el error admisible • Para una población de gran tamaño
Tamaño de muestra para describir una variable binomial • Se debe tener una ´”aproximación” a lo que son los valores de p y q en la población, de modo de tener un valor de pxq que es la varianza.
Tamaño de muestra para describir una variable binomial • Si la población disponible es pequeña, entonces la fórmula se corrige y se ajusta n0
Ejemplo: • ¿Cuál será el tamaño mínimo de muestra para describir el porcentaje de perros de la raza ovejero alemán, afectados por displasia de cadera en Chile?
Pasos: • 1: Estimación previa del porcentaje esperado. • Antecedentes de literatura • Estudios previos del mismo equipo de investigación, etc. • Supongamos que por los puntos anteriores se puede establecer que el porcentaje será de un 30%
Pasos • 2: Determinación de la magnitud del error admisible • Depende de los objetivos del estudio • Ej. Error admisible, 5%
Pasos • 3: Cálculo del tamaño mínimo n0= (4 x 0.3 x 0.7)/0.05 n0= 0.84/0.0025 n0= 336 perros
Pasos: • 4: Ajuste para población finita: suponiendo que la población de perros Ovejero Alemán en Chile es de 5000 ejemplares (N): • n=336/(1+(336/5000)) • n=336/(1+0.0672) • n=314.8 = 315 perros
Debido a que la expresión en el denominador de la fórmula para ajuste del tamaño será más parecida a 1 en la medida que el tamaño de la población se hace más grande, el mayor efecto en el ajuste se produce cuando el tamaño de la población disponible es pequeño.
Tamaño mínimo de la muestra para comparar dos proporciones • Se aplican los mismos principios que en la comparación de dos promedios. Es decir, el tamaño depende de la diferencia buscada entre los porcentajes y la probabilidad de encontrar esa diferencia en el experimento (poder de la prueba)
Tamaño mínimo de la muestra para comparar dos proporciones • Para dos muestras independientes: • Donde • Za= desviación normal para el nivel de significancia utilizado • b= 2(1-P´) • Zb= desviación normal correspondiente a la probabilidad de dos colas de b • Usar la mejor estimación de p1q1+ p2q2