330 likes | 518 Views
Estadística no paramétrica. Dr. Ignacio Méndez Ramírez. La estadística no paramétrica consiste en eliminar algunos supuestos con los que operan las pruebas llamadas paramétricas, que suponen normalidad de la distribución de los datos dentro de cada población.
E N D
Estadística no paramétrica Dr. Ignacio Méndez Ramírez
La estadística no paramétrica consiste en eliminar algunos supuestos con los que operan las pruebas llamadas paramétricas, que suponen normalidad de la distribución de los datos dentro de cada población. • En general las pruebas no paramétricas resultan con menor potencia que las correspondientes paramétricas.
Pruebas para una sola población • Pruebas de que la mediana de una distribución es cero. • Se puede usar para datos apareados, o sea bloques de dos elementos. En este caso se obtiene la diferencia: • di=X1i-X2i i = 1,2,…n • La hipótesis de mediana cero se puede someter a contrastación, con varias pruebas, consideramos, la del signo y la de Wilcoxon de rangos con signo.
Prueba del Signo • Si se tienen los n elementos y en cada uno se mide una variable di y se quiere someter a contrastación la hipótesis de que los valores provienen de una distribución con mediana MDo, se cuenta cuantos valores son inferiores a MDo, n- y cuantos superiores, n+. Se supone que no hay casos con valores exactamente iguales a MDo
Prueba del signo 2 • Bajo la Hipótesis de que la mediana es MDo, n+ tiene una distribución binomial. • Entonces en prueba de dos colas, el valor de P es el doble de la probabilidad de que n+ sea mayor que n+obs si n+obs es mayor que n-obs.
Prueba del signo 3 • Bajo la Hipótesis de que la mediana es MDo, n+ tiene una distribución binomial. • Entonces en prueba de una cola, el valor de P es la probabilidad de que n+ sea mayor que n+obs si n+obs es mayor que n-obs.
Prueba de Wilcoxon de rangos con signo • En este caso la hipótesis es que la mediana poblacional es MDo, puede ser MDo=0, para el caso apareado. Este caso implica la hipótesis de que las dos poblaciones tienen la misma distribución. • Se obtienen los valores de las di ordenadas y se les asigna un rango 1, 2, 3, …n. Luego se obtiene el signo de cada dato + si di es mayor que MDo y – en caso contrario.
Prueba de Wilcoxon de rangos con signo 2 La estadística de prueba es : Tobs = ∑ri(+) - ∑ri(-) Se consideran todas las posibles asignaciones de signos para los rangos del 1 al n. Estas son 2n
Prueba de Wilcoxon de rangos con signo 3 • Sean los datos: Tobs=3.5+1+3.5+2-5-6=-1
Un valor de T de -1 es muy probable, la P es de mas de 25%. No se rechaza Ho. Note la cercanía a la normalidad
Prueba de Wilcoxon de Rangos con signo cont. • Otra forma equivalente de la contrastación es sumar solo los valores con signo positivo. La estadística de prueba es : T+obs = ∑ri(+)
Bajo el supuesto de normalidad, se tiene que la media esperada (bajo Ho), para T+, es n(n+1)/4 y la varianza si no hay ceros ni empates es Varajus(T+)=(1/4)∑ri2 =[n(n+1)(2n+1)]/24
Prueba Kruskal Wallis. Comparación de 2 o mas muestras independientes Para dos o mas muestras independientes. La escala de medición es ordinal o bien se tiene una escala de razón o intervalo pero no se cumplen algunos supuestos para la prueba de F. La hipótesis de nulidad implica que la forma de la distribución de las poblaciones de donde vienen las muestras son iguales, es decir se considera que las poblaciones son en realidad una sola. No hay diferencias entre la clasificación en las muestras. Una versión de la hipótesis es que las medianas de las poblaciones son iguales .
Procedimiento y lógica. 1.- Se ordenan los valores de las k muestras sin respetar la pertenencia a ellas. Pero conservando su identificación. Se asignan rangos de menor a mayor. Si hay empates se obtiene el promedio de los rangos empatados y ese valor se asigna a las observaciones con empate. 2.- Determinar los valores de Rj , la suma de rangos, y de Rj promedio de los rangos para cada uno de los k grupos. 3.- Calcular KW, si hay un gran número de empates usar expresión 2, de otro modo use expresión 1. 4.- Siegel y Castellan dan dos tablas, con k=3 y n1 , n2 y n3 ≤5 , y otra en caso contrario.
La hipótesis es que los k grupos tienen igual mediana. Bajo supuesto de igual dispersión equivale a iguales poblaciones en las k muestras. • Bajo hipótesis se espera que los datos esten distribuidos entre las muestras al azar y entonces los promedios de los rangos deben ser iguales o muy parecidos. • El valor de la estadística de prueba KW crece si los promedios de los rangos son muy diferentes.
Expresión 1, pocos empates. Expresión 2, muchos empates. Se determina g el número de grupos con empates y ti el número de empates en cada grupo. Obtener Donde:
Muestras grandes • Si las muestras son de tamaño grande y k es grande también. La estadística KW tiene aproximadamente una distribución Ji cuadrada con k-1 grados de libertad
Ejemplo: Tres formas de presentar información en el aprendizaje de relaciones de probabilidad. Donde hay una relación funcional X+Y+c=Z X y Y se relacionan probabilísticamente con Z y c es constante. Pero X es irrelevante y Y no. Los tratamientos fueron : 1 irrelevante primero, 2.- Valido primero y 3.- Ambos . Los datos son calificaciones de predicción de 12 sujetos
Rangos R j R j
KW=1.51 En tabla O de Siegel y Castellan el valor de P es de 0.10. No se rechaza la hipótesis de igualdad de medianas
Muestras relacionadas. Bloques.Prueba de Friedman Es el equivalente no paramétrico del análisis de varianza con dos criterios. La escala de medición es numérica de razón o de intervalo, pero se obtienen rangos, o bien es una escala ordinal inicial, sobre la que se obtienen rangos. La hipótesis de nulidad es la igualdad de medianas ajustadas por el factor de formación de bloques.
Prueba de Friedman 1.- Acomodar los datos en una tabla de doble entrada. Los renglones son los bloques y las columnas las k poblaciones o tratamientos 2.- Dentro de cada renglón o bloque obtener los rangos de los datos del 1 a k. 3.- Obtener la suma de los rangos en cada columna o población. (Rj) 4.- Obtener la estadística de prueba Fr. Con o sin empates. 5.-Para n y k pequeños usar tablas. En caso contrario Fr sigue una distribución Ji cuadrada con k-1 grados de libertad
Sin empates dentro de bloques. Con empates dentro de bloques. gi es el numero de conjuntos de empates en el bloque i, y ti.jes el número de datos empatados en cada conjunto.
Ejemplo: Tres (k) tratamientos de refuerzo en habilidad de aprendizaje en ratas. Tres ratas en cada camada, con 18=b camadas. Camada 100% de Refuerzo Refuerzo Parcial No refuerzo 1 1 3 2 2 2 3 1 3 1 3 2 4 1 2 3 5 3 1 2 6 2 3 1 7 3 2 1 8 1 3 2 9 3 1 2 10 3 1 2
Camada 100% de Refuerzo Refuerzo Parcial No refuerzo 11 2 3 1 12 2 3 1 13 3 2 1 14 2 3 1 15 2.5 2.5 1 16 3 2 1 17 3 2 1 18 2 3 1 Rj 39.5 42.5 26.0
Este valor es significativo, con P entre 0.02 y 0.01, con 3-1=2 gl Hay 52 empates de tamaño 1 y uno ( bloque 15) de tamaño 2., por tanto: Este valor también es significativo, con P entre 0.02 y 0.01, con 3-1=2 gl