150 likes | 495 Views
De la muestra a la población. Principios del análisis estadístico. De la muestra a la población. Cuando a partir de una muestra se desea extrapolar las conclusiones a una población las preguntas que se pueden plantear son: ¿Cuánto difieren nuestros datos de la población objetivo?
E N D
De la muestra a la población Principios del análisis estadístico
De la muestra a la población Cuando a partir de una muestra se desea extrapolar las conclusiones a una población las preguntas que se pueden plantear son: ¿Cuánto difieren nuestros datos de la población objetivo? O, si obtenemos otra muestra de la misma población, ¿Qué tan diferente será de la primera aunque se hayan cumplido los requisitos para que la muestra sea representativa? La estadística nos proporciona una medida de la incertidumbre a la que nos vemos sometidos cuando elegimos una muestra.
Variabilidad de las medias muestrales La variabilidad será menor cuanto mayor sea el tamaño muestra La variabilidad será menor que la variabilidad de los datos de la población La variabilidad será menor cuanto menor sea la variabilidad de los datos de la población
Distribución de las medias muestrales El valor esperado (esperanza matemática) de la distribución de medias muestrales es el mismo que la media poblacional El valor esperado del desvío estándar de las medias muestrales es σ/√n. Es el error estándar de la media. Para estimarlo a partir de una muestra tomamos el desvío estándar de la muestra s en lugar de σ La distribución de las medias muestrales será normal si la distribución de los datos en la población es normal
Teorema central del límite Si una población (no necesariamente normal) tiene una media μ y un desvío estándar σ,la distribución de las muestras aleatorias de esa población tienden al aumentar el tamaño de la muestra n a una normal con media μ y a un desvío estándar σ/√n Por ejemplo si los datos son categóricos y el tamaño de la muestra n de más de cien individuos y la proporción del número de enfermos л , entonces a través de n.л obtendríamos la media μ y el desvío estándar se calcularía como √ л.(1-л)/n
Problema Partimos de un establecimiento educacional con mil alumnos Con un nuevo programa de enseñanza el promedio de asistencia es de 83 Promedio histórico 80 DS 10 ¿Cuál es la probabilidad de que haya un verdadero incremento de la asistencia? ¿Las diferencias se deben solo al azar? Hipótesis: 1- Del Investigador. El promedio de asistencia se incrementó 2- Hipótesis nula: Las diferencias se deben solo al azar Muestra de 100 alumnos Prueba z= 83-80/1=3 z=3 equivale a p=0.0013
Intervalos de confianza para una muestra El IC muestra la incertidumbre en la estimación del estadístico de interés Los elementos necesarios para construir un IC son: La media poblacional, que la infiero a partir de la media muestral El desvío estándar de la población, que si no lo conozco lo infiero a partir del EEM La confianza que pretendo tener al suponer que ese sea uno de los intervalos que contengan la verdadera media poblacional En nuestro ej. IC 95% = 83 ± 1.69 * 10/√100 Es entonces 81.31 a 84.69
Comparación de grupos Número de grupos de observaciones 1- Un grupo 2- Dos grupos 3- Más de dos grupos Tipo de observaciones 1- Independientes 2- Relacionadas Tipo de datos 1- Continuos 2- Categóricos u ordinales Distribución de los datos
Distribución normal Es unimodal, un solo modo Es simétrica con respecto a la media, la mitad de la curva es igual a la otra mitad La base está dada por unidades de desvío estándar, un desvío estándar (s) corresponde a un z, 2.5 s a 2.5 z La media la mediana y el modo coinciden en el mismo punto El área bajo la curva (Φz) es 1 Prueba z se basa en la normal estándar z= X-μ en nuestro ej. Z= 83-80 = 3 (σ/√n) (10/√100) Cola inferior Φz, cola superior 1- Φz, dos colas 2*(1-Φz)
Distribución t de Student Es una distribución de medias muestrales cuando el tamaño de la muestra es pequeño Es similar a la normal La diferencia está en las colas, cuando se incrementa el tamaño de muestra usar uno u otro método es igual Se debe tener en cuenta el parámetro grados de libertad que se calcula restando uno a n Comparación de una media con un valor específico: Peso de RN de madres con CC vs. Peso de RN de MN t= x-k t= 2658 -3388 = -3.98 p<0.006 SD/√n 913/√16
Pruebas no paramétricas Test del signo: si no hay diferencias entre los valores de la media y el promedio histórico, esperaríamos encontrar tantos valores por encima como por debajo del último. En nuestro caso hay 13 valores por debajo y solo 3 por encima del valor de referencia. Test de Wilcoxon(Rank sum test): 1- Se calcula la diferencia entre cada observación y el valor de interés 2- Se ignora el signo de la diferencia y se obtiene un rango 3- por último se suman los rangos por encima y por debajo del valor promedio
Dos grupos de observaciones apareadas Paramétricos Test t para muestras apareadas t= (d-0)/ES se entra a la tabla por el valor de t y los grados de libertad Intervalos de confianza para la diferencia de medias: x± tα*ES No paramétricos Test del Signo Test de Wilcoxon
Comparación de muestras independientes Método paramétrico Test de t para muestras independientes t= x1-x2 se (x1-x2) Intervalos de confianza para muestras independientes. IC = x1-x2±t 0.975* se(x1-x2) Método no paramétrico Test de Mann-Whitney
Comparación de dos grupos de observaciones independientes Si No Si No Si Si No ¿La distribución es normal en ambos grupos? ii ¿El Nro.de observaciones es grande? No ¿Tienen iguales varianzas? ¿Las distribuciones son similares salvo en la posición? Test Z Test de Welch Test t Test de la Mediana Test de Mann-Whitney
Comparación de dos grupos de observaciones apareadas Si No Si No Si No ¿La distribución es normal en ambos grupos? Test t ¿El Número de observaciones es grande? ¿La distribución es simétrica? Test z Wilcoxon Signo