271 likes | 792 Views
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos. Distribuciones muestrales I Distribución de la media muestral. Algunos conceptos indispensables:. Distribución de probabilidades empírica:
E N D
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos Distribuciones muestrales IDistribución de la media muestral
Algunos conceptos indispensables: • Distribución de probabilidades empírica: Como hemos visto a lo largo del curso las poblaciones pueden tener diversas formas de distribuirse, es decir las frecuencias de sus valores pueden cambiar. La representación de esto se hace mediante las tablas de frecuencias y también gráficamente mediante los histogramas de probabilidades, los cuales nos describen las probabilidades de los diferentes valores de una variable ligada a una población. Por ejemplo las probabilidades de las edades de los estudiantes de ciencias humanas, ya sea en tabla o en histograma.
Algunos conceptos indispensables: • Distribución teórica: Existen distribuciones de probabilidades que pueden definirse matemáticamente en sus propiedades, es decir sin referencia a unos datos concretos. • Ejemplos de lo anterior son la distribución Binomial o la distribución Poisson ya vistas en clase. Pese a lo anterior podemos aplicar esas definiciones y propiedades a casos reales que se parecen a las distribuciones teóricas. Si se definen correctamente unas condiciones en un experimento o muestreo podemos garantizar que la aplicación a casos reales pueda realizarse y describir el caso concreto en relación con una buena construcción teórica de las distribución de probabilidad. • Ejemplos de lo anterior son las aplicaciones de la distribución Binomial o la distribución Poisson para describir y predecir probabilidades en ejemplos y experimentos reales correctamente construidos.
Algunos conceptos indispensables: • La estadística proporciona las descripciones y los procedimientos para lograr que la relación entre los hechos y la construcción matemática sea la mas adecuada, pero el investigador es quien las interpreta los resultados teniendo en cuenta: • Como se aplicó la teoría estadística al caso real y también • El conocimiento que tenga de la materia de estudio.
Algunos conceptos indispensables: En general la descripción y análisis estadístico de las probabilidades se define mediante unos valores numéricos llamados parámetros: • Parámetro estadístico: Es un valor que nos define o describe una población. • La media poblacional : µ • La varianza poblacional : σ2 • La cantidad de datos o individuos de la población : N • La probabilidad de un evento : p • También la mediana, la moda, el CV, etc. etc… • Existen gran variedad de parámetros o formas posibles de describir una población o una distribución teórica. • Dependiendo de la construcción conceptual de un experimento real o de la construcción matemática de una distribución teórica se pueden usar diferentes parámetros para realizar descripciones pertinentes.
Algunos conceptos indispensables: • Estadística: Es un valor numérico que nos da una idea sobre el valor de un parámetro. P ej. decir que la media de las edades de los colombianos es de 24 años. • Estadístico: Es un procedimiento (fórmula matemática) para hallar el valor de un parámetro, es decir, para hallar una estadística. • Por ejemplo el estadístico para la media de una variable es sumar los valores y dividir entre el número de valores.
Algunos conceptos indispensables: • Estimación. Es un valor que hallamos mediante un estadístico cuando no contamos con toda la información pertinente y por consiguiente no sabemos el valor de un parámetro poblacional. • Siempre se busca que sea lo mas cercano al parámetro y pese a que nunca hay seguridad total y absoluta de que coincida con él podemos saber que probabilidad tenemos de estar errados. • Por ejemplo, hacer un muestreo de colombianos sin saber el valor real del promedio, y decir que el promedio de esa muestra, 24.6 años, es muy aproximado a la edad promedio de todos los colombianos: “La edad promedio estimada según la muestra es de 24.6 años”.
Algunos conceptos indispensables: • Estimador: Es la estadística que usamos para estimar el valor de un parámetro en una población a partir de información parcial. En nuestro caso, a partir de una muestra. • Por ejemplo, la media muestral X barra es un estimador de la media poblacional µ pues el valor de la media de una muestra casi siempre es cercano al valor real de la media de la población. • Dependiendo de la cantidad de información que tengamos y de los procedimientos para conseguirla, las estimaciones pueden ser mejores o peores, es decir más o menos aproximadas al valor real de parámetro. • Las propiedades matemáticas de los estimadores pueden definirse de modo que podamos calcular la probabilidad de que una estimación se aproxime con buena precisión al valor real del parámetro. -
Distribuciones muestralesDefinición: La distribución de todos los valores posibles que puede asumir una estadística, calculados a partir de muestras del mismo tamaño, seleccionadas aleatoriamente de la misma población, se llama distribución muestral de esa estadistica.
Distribuciones muestrales¿Cómo hallarlas? Existen dos maneras de saber cual es aproximadamente la distribución muestral de una estadística: • Mediante el análisis con poblaciones muy pequeñas y variables discretas. El inconveniente es que con poblaciones mas grandes, e incluso infinitas, este procedimiento se vuelve extremadamente difícil o imposible. • Mediante la definición matemática de las propiedades de los estimadores y de las distribuciones teóricas. A continuación se presentará un ejemplo con pocos datos para ilustrar en que consiste la distribución muestral de la media. Posteriormente se presentará una generalización a casos con poblaciones mas grandes. Para las definiciones matemáticas y demostraciones de la generalización hay bastante bibliografía pertinente que puede ser consultada.
Distribuciones muestralesElaboración Las distribuciones muestrales pueden construirse empíricamente a partir de poblaciones finitas y discretas. Para ello, se procede como sigue: • 1. De una población finita de tamaño N, se extraen de manera aleatoria todas las muestras posibles de tamaño n. • 2. Se calcula Ia estadística de interés para cada muestra. • 3. Se ordenan en una columna los distintos valores observados de la estadística y, en otra columna, las frecuencias de ocurrencia correspondientes de cada valor observado. (Tabla de frecuencias)
Distribuciones muestralesEjemplo Tenemos una población de cinco personas cuyas edades son 6,8,10,12 y 14 años. • La media poblacional µ es 10 años. • La varianza poblacional σ2 es de 8 años 2. Comprobar por su cuenta los cálculos.
Distribuciones muestralesEjemplo Todas las posibles muestras de tamaño n =2 de una población de tamaño N = 5. Las muestras arriba o abajo de la diagonal principal resultan cuando el muestreo es sin remplazos. Las medias de las muestras están entre paréntesis.
Distribuciones muestralesEjemplo Hacemos la tabla de frecuencias de las medias de todas las muestras posibles:
Distribuciones muestralesEjemplo Podemos comparar los histogramas de la población y de las muestras
Distribuciones muestralesEjemplo _ • Ahora, con los valores de la tabla, podemos calcular la media de las medias de las muestras: • Vemos que la media de las muestras coincide con la media de la población pues µ de la población es 10, como ya lo habíamos calculado.
Distribuciones muestralesEjemplo _ • Tambien podemos calcular la varianza de las medias de las muestras: • Vemos que la varianza de las muestras NO coincide con la media de la población pues σ2de la población es de 8 años 2, como ya lo habíamos calculado.
Distribuciones muestralesEjemplo Sin embargo, es interesante constatar que la varianza de todas las muestras posibles es la misma de la población pero dividida entre el tamaño de la muestra, 2 en este caso: El resultado no es coincidencia, pues se puede demostrar matemáticamente que siempre se cumple esta relación entre la varianza de cualquier población y la de todas la muestras posibles tamaño n que se saquen de ella.
Distribuciones muestralesEjemplo • Podemos expresar la anterior relación en términos de variación estándar simplemente sacándole raíz cuadrada a la formula anterior: A esta expresión se le llama Error Estándar de la Media, o simplemente Error Estándar. Expresa qué tan confiables son nuestras estimaciones de la media a partir de una población.
TEOREMA DEL LÍMITE CENTRAL: • Dada una población de cualquier forma funcional normal o no, con una media µ y variancia finita σ2, la distribución muestral de x barra, calculada a partir de muestras de tamaño n de dicha población, será casi normal con media igual a µ y variancia σ2 /n cuando la muestra es muy grande.
Corrección para población finita: Los cálculos anteriores son para un muestreo con remplazo, es decir, sacar un individuo y regresarlo a la población. ¿Qué pasa si el muestreo es mas natural, simplemente de las cinco personas de la población sacamos dos y ya?
Corrección para población finita: Lo que cambiaría sería que ya no tenemos la diagonal del ejemplo anterior, pues el mismo individuo ya no puede estar dos veces en la muestra:
Corrección para población finita: Después de desarrollar la tabla de frecuencias y los cálculos de varianza muestral, podemos constatar que en un muestreo sin remplazo la distribución de la media muestral tiene la siguiente varianza: (Comprobar por su cuenta los cálculos). Al término (N-n)/(N-1) se le llama Factor de Corrección por población finita. Sin embargo cuando la población es muy grande y la muestra es mucho mas pequeña que la población este factor es despreciable y se puede usar simplemente el error estándar.