470 likes | 911 Views
Probabilidad y Estadística. Master en Administración de Empresas Facultad de Ciencias Empresariales Universidad Austral Año 2007. Clase 6 – Prof. Martha Blanco y Fernanda Méndez. Intervalo de confianza para una media poblacional.
E N D
Probabilidad y Estadística Master en Administración de Empresas Facultad de Ciencias Empresariales Universidad Austral Año 2007 Clase 6 – Prof. Martha Blanco y Fernanda Méndez
Intervalo de confianza para una media poblacional Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Un intervalo de confianza de nivel C para es donde t* es el valor crítico superior (1-C)/2 de la distribución t(n-1). Este intervalo es exacto cuando la distribución de la población es normal y aproximadamente correcto para muestras grandes en los demás casos.
Prueba de significación para una media poblacional Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Para contrastar la hipótesis H0: =0 a partir de una muestra aleatoria simple de tamaño n, calcula el estadístico t de una muestra En términos de la variable T que tiene una distribución t(n-1), el valor P para contrastar H0 en contra de
Estos valores P son exactos si la distribución de la población es normal y son aproximadamente correctos para muestras grandes en los demás casos.
Procedimientos t en diseños por pares Utiliza estos procedimientos t de una muestra para analizar los datos de los diseños por pares. Primero tienes que calcular la diferencia dentro de cada par para obtener una sola muestra.
Utilización de los procedimientos t • Antes de utilizar los procedimientos t, dibuja un gráfico para detectar asimetrías o la presencia de observaciones atípicas (gráfico de probabilidad normal, diagrama de tallo y hoja, diagrama de caja). Excepto en el caso de muestras pequeñas, el supuesto de que los datos sean una muestra aleatoria simple de la población de interés es más importante que el supuesto de que la distribución de la población sea normal. • Tamaño de muestra menor que 15. Utiliza los procedimientos t si los datos son aproximadamente normales. Si los datos no son claramente normales o si existen observaciones atípicas, no utilices los procedimientos t.
Tamaño de muestra mayor o igual a 15. Los procedimientos t se pueden utilizar a no ser que existan observaciones atípicas o que la distribución sea muy asimétrica. • Muestras grandes. Los procedimientos t se pueden utilizar incluso para distribuciones muy asimétricas cuando la muestra sea grande, aproximadamente cuando n ≥ 40.
Comparación de dos medias • Problemas de dos muestras • El objetivo de la inferencia es la comparación de las respuestas de dos tratamientos o la comparación de las características de dos poblaciones. • Tenemos una muestra distinta de cada población o de cada tratamiento.
Supuestos para la comparación de dos medias • Tenemos dos muestras aleatorias simples de dos poblaciones distintas. Las muestras son independientes. Es decir, una muestra no tiene ninguna influencia sobre la otra. Así, por ejemplo, la agrupación por pares viola la independencia. Medimos la misma variable en las dos muestras. • Las dos poblaciones tienen distribuciones normales. Las medias y las desviaciones típicas de las dos poblaciones son desconocidas.
Intervalo de confianza t de dos muestras Obtén una muestra aleatoria simple de tamaño n1 de la población normal de media 1 desconocida y una muestra aleatoria simple independiente de tamaño n2 de otra población normal de media 2 desconocida. El intervalo de confianza para 1 -2 dado por tiene un nivel de confianza de al menos C, independientemente de cuáles sean las desviaciones típicas poblacionales. Aquí t* es el valor crítico superior de (1-C)/2 de la distribución t(k), donde k es el menor de los valores n1-1 y n2-1.
Prueba de significación t de dos muestras Para contrastar la hipótesis H0: 1 = 2, calcula el estadístico t de dos muestras y utiliza los valores P o los valores críticos de la distribución t(k). El verdadero valor P o el nivel de significación predeterminado siempre será igual o menor que el valor calculado a partir de t(k), independientemente de cuáles sean los valores que tengan desviaciones poblacionales desconocidas.
Procedimientos t de dos muestras con varianza común Si se puede suponer que las dos poblaciones tienen varianzas iguales, se pueden utilizar los procedimientos t de dos muestras con varianza común. Estos se basan en el estimador amalgamado de la varianza muestral El estadístico t de dos muestras con varianza común tiene exactamente una distribución t con n1+n2-2 grados de libertad si las varianzas poblacionales son realmente iguales.
Caso de estudio 1 • Estudios de arquitectura: En el archivo caso1.xls se presentan las características de una muestra aleatoria de 25 estudios de arquitectura del área de Indianápolis. • Realice una tabla donde muestre el promedio, la desviación estándar, el intervalo de confianza del 95%, y los cinco números resumen para las variables: facturación del año 1998, facturación del año 1997, número de arquitectos matriculados empleados, número de ingenieros matriculados empleados y número de empleados tiempo completo.
Compare la facturación promedio de los años 1998 y 1997 de los estudios de arquitectura. ¿Se puede concluir que la facturación promedio de las empresas en el año 1998 es superior a la del año 1997? • Clasifique las empresas como “viejas” o “nuevas” según ellas hayan comenzado o no a trabajar en el área antes de 1970. Compare la facturación promedio en el año 1997 de las empresas nuevas y viejas. Indique si ha utilizado o no los procedimientos amalgamados y explique por qué. Informe sus resultados con resúmenes numéricos y gráficos. Escriba un párrafo corto explicando las diferencias encontradas.
Discusión. Procedimientos t de una muestra. Cuadro 1. Promedio y desviación estándar de las variables en estudio Cuadro 2. Los cinco números resumen de las variables en estudio
Diagramas de tallo y Diagramas de caja de las variables en estudio Facturación en el año 1998 Facturación en el año 1997
Diagramas de tallo y Diagramas de caja de las variables en estudio Número de arquitectos matriculados Número de ingenieros matriculados
Cuadro 3: Intervalos de confianza del 95% para la media de las variables en estudio
Discusión. Comparación facturación de las empresas en el año 1998 y 1997 En este caso se trata de un experimento de datos apareados y no de dos muestras independientes, por lo tanto se calculan las diferencias entre la facturación del año 1998 y la del 1997 para cada estudio de arquitectura, con el objeto de evaluar si la facturación promedio del año 1998 es significativamente diferente de la correspondiente al año 1997. Se contrastan las siguientes hipótesis: H0: D = 0 Ha: D > 0 El siguiente cuadro muestra el promedio y el desvío estándar de las 25 diferencias:
Para verificar si se pueden aplicar los procedimientos t se realiza el diagrama de tallo y el gráfico de probabilidad normal de las diferencias entre la facturación de 1998 y la de 1997. Se observa que los datos son bastantes simétricos y poco alejados de la normalidad, lo que permite la aplicación de los procedimientos t. Diagrama de tallo de las diferencias en la facturación de 1998 y 1997 Gráfico de probabilidad normal para las diferencias en la facturación de 1998 y 1997
La estadística t es entonces El valor P para t=1.643 es el área situada a la derecha de 1.643 por debajo de la curva de la distribución t con n-1=24 grados de libertad.Un programa estadístico da el valor exacto, P=0.056. Los datos muestran que a un nivel de significación del 10% la facturación de los estudios de arquitectura en 1998 es más alta que en 1997.
Cuadro 6: Salida del programa estadístico SPSS Los procedimientos t para diseños por pares sólo son completamente exactos cuando la población es normal. Las diferencias en la facturación de 1998 y 1997 para la muestra de 25 empresas presentan desviaciones de la normalidad.
Discusión. Comparación empresas nuevas y viejas La pregunta de interés es si la facturación promedio en el año 1997 es diferente en las empresas nuevas y viejas. Se desea probar: H0: 1 = 2 Ha: 1 2 El siguiente cuadro muestra el promedio y el desvío estándar de los dos grupos de empresas:
Diagrama de tallo de la facturación en el año 1997 de empresas nuevas y viejas Diagrama de caja de la facturación en el año 1997 de empresas nuevas y viejas
Primero es recomendable comparar los desvíos estándares poblacionales mediante la siguiente prueba H0: 1 = 2 Ha: 1 2 El estadístico F de contraste es Se compara el valor calculado F = 2.1178 con los valores críticos de la distribución F(13, 10). El valor observado F = 2.1178 es menor al valor crítico F=2.14, correspondiente al área de probabilidad 0.10 de la cola de la distribución F(13, 10). En consecuencia, el valor P de dos colas es mayor a 0.10 (exactamente es igual a 0.2397) y luego no se rechaza H0. La conclusión es que los datos muestran que a un nivel de significación del 10% la variabilidad de los dos grupos de empresas no es distinta.
Es decir que los datos de la muestra no presentan evidencias para suponer que las desviaciones estándares poblacionales no son iguales. La varianza muestral amalgamada es: El estadístico t de dos muestras con varianza común es La probabilidad asociada resulta igual a 0.873, luego no se rechaza la hipótesis nula de igualdad de la facturación promedio en el año 1997 de las empresas nuevas y viejas.
Inferencia para una proporción poblacional Obtén una muestra aleatoria simple de tamaño n de una gran población con una proporción p de éxitos desconocida. Un intervalo de confianza de nivel C aproximado para p es donde z* es el valor crítico superior normal estandarizado de
Para contrastar la hipótesis H0: p = p0 calcula el estadístico En términos de la variable Z que tiene una distribución normal estandarizada, el valor P aproximado para el contraste de H0 en contra de
Tamaño de muestra para un error de estimación deseado El tamaño de muestra necesario para obtener un intervalo de confianza de nivel C con un error de estimación aproximado m, para una proporción poblacional p es donde p* es el valor supuesto para la proporción muestral y z* es el valor crítico normal estandarizado correspondiente al nivel de confianza que desees. Si utilizas p* = 0,5 en esta fórmula, el error de estimación del intervalo será menor o igual que m.
Intervalos de confianza para la comparación de dos proporciones Obtén una muestra aleatoria simple de tamaño n1 de una población con una proporción p1 de éxitos y obtén una muestra aleatoria simple, independiente de la anterior, de tamaño n2 de otra población con una proporción p2 de éxitos. Cuando n1 y n2 son grandes, un intervalo de confianza aproximado de nivel C para p1 - p2 es
En esta fórmula el error típico ET de es y z* es el valor crítico superior normal estandarizado de En la práctica, utiliza este intervalo de confianza cuando la población sea al menos 10 veces mayor que las muestras y los recuentos de éxitos y fracasos sean mayores o iguales que 5 en ambas muestras.
Pruebas de significación para la comparación de dos proporciones Para contrastar la hipótesis H0: p1 = p2 Halla en primer lugar la proporción muestral común de éxitos en las dos muestras combinadas. Luego calcula el estadístico z
En términos de la variable z que tiene una distribución normal estandarizada, el valor P para una prueba en contra de En las práctica, utiliza estas pruebas cuando las poblaciones sean al menos 10 veces mayores que la muestra y cuando los recuentos de éxitos y fracasos sean mayores o iguales a 5 en ambas muestras.
Caso de estudio 2 Tamaño de muestra, valor P y error típico. En este caso se examinan los efectos del tamaño de muestra sobre el contraste de hipótesis y el intervalo de confianza para la comparación de dos proporciones. Para cada cálculo, suponga que y y considere n como el valor común entre n1 y n2. Use la estadística z para probar H0: p1 = p2 frente a la alternativa Ha: p1p2.Calcule la estadística y el valor P asociado para los siguientes valores de n: 15, 25, 50, 75, 100 y 500. Resuma los resultados en una tabla y realice un gráfico. Explique lo observado con respecto al efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian.
Luego realice cálculos similares para el intervalo de confianza. Suponga que y . Calcule el error típico para el intervalo de confianza del 95% para la comparación de dos proporciones para los siguientes valores de n = 15, 25, 50, 75, 100 y 500. Resuma y explique sus resultados.
Discusión. Tamaño de muestra y valor P Se desea contrastar la hipótesis H0: p1 = p2 frente a la Ha: p1 p2. Se supone que las proporciones muestrales son y , luego la proporción muestral común es . Se considera n el valor común entre n1 y n2.
Se calcula el estadístico z bajo el supuesto de que es válida la H0: p1 = p2: y luego el correspondiente valor P: 2P(Z ≥ |z|).
El gráfico anterior permite observar el efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian. El mismo muestra que el valor P disminuye a medida que aumenta el tamaño muestral. Además, en este caso, se observa que para tamaños de muestra superiores a 100 los valores P son prácticamente nulos. Esto indica que con un tamaño muestral grande, aún una diferencia pequeña en las proporciones muestrales, puede resultar estadísticamente significativa o bien, por otro lado, que una diferencia importante puede ser estadísticamente no significativa si la muestra es pequeña.
Discusión. Tamaño de muestra y error típico La fórmula del error típico de es
El gráfico anterior permite observar el efecto del tamaño muestral sobre la amplitud del intervalo de confianza para la comparación de dos proporciones. El mismo muestra que la amplitud disminuye a medida que aumenta el tamaño muestral.