360 likes | 592 Views
PRUEBA DE SIGNIFICANCIA. CHI CUADRADO. ¿Qué es la Chi Cuadrada?. Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas Se simboliza por χ2 Hipótesis a probar : Correlaciónales ( H0 : no hay asociación y H1 hay asociación)
E N D
PRUEBA DE SIGNIFICANCIA CHI CUADRADO
¿Qué es la Chi Cuadrada? • Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas • Se simboliza por χ2 • Hipótesis a probar : Correlaciónales ( H0 : no hay asociación y H1 hay asociación) • Variables involucradas: Dos, esta prueba no considera relacionescausales • Nivel de medición de las variables: Nominal u ordinal
Otras características • Es una distribución asimétrica • Sólo toma valores positivos y es asintótica con respecto al eje de las x positivas ( 0 < χ2 < +∞) • Está caracterizada por un único parámetro “ n” llamado “grados de libertad” adoptando formas distintas según el valor de “n” • El área comprendida entre la curva y el eje de las x es 1 ó 100%
Aplicaciones Entre las aplicaciones más frecuentes de esta distribución en el área de salud, podemos señalar: • La prueba de asociación, la cual permite al investigador determinar si existe asociación entre dos variables en escala de medición nominal u ordinal. También aparece en la literatura con el nombre de “tablas de contingencia” • La prueba de “bondad de ajuste”
PROCEDIMIENTO • Se calcula a través de una tabla de contingencia o tabulación cruzada. • Es una tabla de dos dimensiones y cada dimensión contienen una variable • Cada variable se subdivide en dos o más categorías. • Ejemplo: tabla 2x2 => cada dígito indica una variable y el valor de este indica el número de categorías de la variable
Ejemplo de una Tabla de Contingencia Dos variables : voto y sexo Cada variable con dos categorías VOTO CANDIDATO “ B” CANDIDATO “A” MASCULINO SEXO FEMENINO
Ejemplo Tabla 2x3 Identificación politica Zona Distrito electoral
En esencia la prueba de Chi Cuadrado es ....... • “ es una prueba que parte del supuesto de “no relación entre las variables” • “ una comparación entre la “tabla de frecuencias observadas” y la denominada “tabla de frecuencias esperadas” • La lógica es “Si no hay relación entre las variables debe tenerse una tabla como la de frecuencias esperadas, si la hay la tabla que obtengamos como resultado de nuestra investigación debe ser muy diferente respecto de la tabla de frecuencias esperadas”
Paso a paso.................... • En la tabla de contingencia se anotan las frecuencias observadas en la muestra de la investigación. • Se calculan las frecuencias esperadas para cada celda fe = (total marginal de renglón)*(total marginal de columna) N donde N= ´número total de frecuencias observadas
Paso a paso.................... • Se aplica la siguiente fórmula de Chi Cuadrada: χ2 = Σ(O – E)² / E donde O = frecuencia observada en cada celda E = frecuencia esperada en cada celda Es decir: “ Se calcula la diferencia entre la frecuencia observada y la esperada, esta diferencia se eleva al cuadrado y se divide entre la frecuencia esperada. Finalmente, se suman estos resultados y la sumatoria es el valor de la χ2 obtenida “
Otra forma de calcular Chi Cuadrado es............. • Procedimiento para calcular la Chi Cuadrada χ2 = 47,33
Paso a paso................. • Cálculo del Ji cuadrada crítico: el cual se obtiene de una tabla específica, en donde se busca la intersección entre los grados de libertad y el nivel de significación α gl = ( r-1)*(c-1) donde r = nº de renglones de la tabla de contingencia c = nº de columnas Ejemplo => gl = ( 3 – 1 ) * ( 2 – 1 ) = 2 Con un nivel de confianza de 0,05 ó 0,01 y con los grados de libertad vamos a la tabla y obtenemos el valor χ2
Paso a paso.................... • Región de rechazo R: está constituida por todos los valores del Ji cuadrado iguales o mayores que el Ji Cuadrado crítico Si nuestro valor calculado de χ2 es igual o superior al de la tabla, decimos que las variables están relacionadas ( χ2 fue significativa En nuestro ejemplo => χ2 tabla es 5,991 χ2 calculado es 47,33 El valor calculado por nosotros es muy superior al de la tabla : χ2 es significativa, es decir están relacionadas .
Observaciones • Mientras mayor sea la diferencia entre los valores observados y los esperados, mayor será el valor de χ2 y aumentará por tanto la probabilidad de rechazar la hipótesis de nulidad • No se puede usar la prueba de χ2 cuando el valor esperado en alguna celda es menor que 5, en ese caso debe usarse la probabilidad exacta de Fisher • La suma de las frecuencias observadas debe coincidir con la suma de las frecuencias esperadas.
TABLAS DE CONTINGENCIAS OTRO USO
¿Qué otra utilización tienen las tablas de contingencia? • Son útiles para describir conjuntamente a dos o más variables. • Esto se hace convirtiendo las frecuencias observadas en frecuencias relativas o porcentajes
¿Qué otra utilización tienen las tablas de contingencia? En una tabulación cruzada puede haber tres tipos de porcentajes respecto a cada celda: • Porcentaje en relación al total de frecuencias observadas (N) • Porcentaje en relación al total marginal de la columna • Porcentaje en relación al total marginal del renglón Veamos un ejemplo: sexo Preferencia por el conductor
Frecuencias observadas En relación a N En relación a “a + b” En relación a “a + c” a + c = 50 b + d c + d N=100 a + b = 65
Tabla Nº 1.- Tabla de contingencia para describir conjuntamente dos variables Sexo Masculino Femenino 50 A Preferencia por el conductor B 50 35 65
Comentario final Una cuarta parte de la muestra está constituida por hombres que prefieren al conductor “A”, el 10 % son mujeres que prefieren al conductor “B”. Más del 60% de los hombres pprefieren a “B”, etc..
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando la muestra a estudiar es demasiado pequeña. • El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tabla observada. • Cada una de estas probabilidades se obtiene bajo la hipótesis nula de independencia de las dos variables que se están considerando.
La probabilidad exacta de observar un conjunto concreto de frecuencias a, b, c y d en una tabla 2 x 2 cuando se asume independencia y los totales de filas y columnas se consideran fijos viene dada por la distribución hipergeométrica: • Esta fórmula se obtiene calculando todas las posibles formas en las que podemos disponer n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas sean siempre los mismos, (a+b), (c+d), (a+c) y (b+d).
La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. • Este valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual a la observada, bajo la hipótesis nula de independencia. • Si esta probabilidad es pequeña (p<0.05) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos variables no son independientes, sino que están asociadas. En caso contrario, se dirá que no existe evidencia estadística de asociación entre ambas variables.
Supongamos que el suceso investigado es, si una enfermedad es más frecuente en el grupo de expuestos que en el de los no expuestos a un posible factor causal .tendremos la siguiente tabla
El test exacto de Fisher Ejemplo: Supóngase que un grupo de 16 personas se reunió a comer en un restaurante. Diez comieron pastel de mariscos y 6 comieron carne. Al día siguiente, 11 de los comensales amanecieron enfermos de gastroenteritis La tabla adjunta muestra las frecuencia de enfermos en los que comieron mariscos y en los que comieron carne. Lo que se quiere averiguar, es si la asociación entre el tipo de comida y enfermar, es estadísticamente significativa Enfermos
Procedimiento • La Ho = frecuencia de enfermos entre los que comieron mariscos es la misma que la de los que enfermaron después de comer carne 11/16 =0,6875, la frecuencia de enfermos en el grupo total. • Las probabilidades se pueden obtener en forma aproximada de la Tabla de Valores Críticos de D o C en la prueba de Fisher *,† • Se busca la sección de la tabla en que los totales del margen derecho son A + B ( 10) y C + D = 6. • Buscamos en la columna B o (A) si aparece 1, que es el valor de B en nuestro ejemplo. Dado que no se encuentra, se debe utilizar el valor de A = 9
Procedimiento • Dado que tuvimos que buscar la fila del valor A = 9, lo que corresponde es buscar el valor de C en la tabla , que corresponde al valor 2. • Valor observado es mayor o igual que el valor crítico indica asociación => 2 ≥ 2 para 5% de significancia. => se declara significativa la asociación • Si es valor observado es menor que el crítico , entonces no existe asociación y se acepta la Ho • Un valor 2 es suficiente para declarar significativa la asociación entre el consumo de alimentos y la enfermedad a nivel de 5% pero no a nivel 2,5% o 1%
¿Qué son los coeficientes de correlación e independencia para tabulaciones cruzadas? • Son coeficientes que también sirven para evaluar si las variables incluidas en la tabla de contingencia o tabulación cruzada están correlacionadas • Algunos de estos coeficientes se pueden observar en la siguiente tabla resumen: