380 likes | 491 Views
ESTADÍSTICA II (Segundo Bimestre). ESCUELA :. PSICOLOGÍA. Dr. Gonzalo Morales. NOMBRES. ABRIL – AGOSTO 2009. FECHA :. Prueba t de student para una muestra. Distribución t de Student W.S. Gosset (principios del siglo XX). N 30 y s no se conoce.
E N D
ESTADÍSTICA II (Segundo Bimestre) ESCUELA: PSICOLOGÍA Dr. Gonzalo Morales NOMBRES ABRIL – AGOSTO 2009 FECHA:
Distribución t de Student W.S. Gosset (principios del siglo XX). N 30 y s no se conoce. Además, al utilizar la distribución t, suponemos que la población es normal o aproximadamente normal.
Propiedades de la distribución t • Es simétrica. • Más plana que la normal. Hay una distribución t diferente para cada tamaño posible de muestra. • Una distribución t es menor en la media y mayor en las colas que una distribución normal.
Distribución t de Student -Es unimodal, con media en 0 -Es una familia de curvas, en función de los llamados “grados de libertad”. Es decir, hay una distribución t de Student con 1 gl, una distribución t de Student con 2 gl, etc. -A medida que aumentan los grados de libertad, la distribución tiende más y más a una distribución normal estandarizada.
Grados de libertad Es el número de valores que podemos elegir libre- mente en una muestra, y que nos permiten encontrar el valor de un parámetro. Por ejemplo, supongamos una muestra de dos datos cuyo promedio es 18. Es decir: (a+b)/2 = 18 Si a toma un valor de 10, entonces b ya no es libre de tomar cualquier valor, debe ser 26 para que (a+b)/2=18. Entonces, tenemos n-1 grados de libertad, si n es el tamaño de la muestra. Similarmente, una muestra de 23 datos nos daría 22 grados de libertad.
Tabla de la distribución t de Student La tabla t es más compacta y muestra áreas y valores de t sólo para algunos porcentajes (ver página 538 del texto básico). La tabla de la distribución t, no se concentra en la probabilidad de que el parámetro de la población que se está estimando se encuentre dentro del intervalo de confianza. En lugar de ello, mide la probabilidad de que este parámetro NO esté dentro de nuestro intervalo de confianza (mide la probabilidad de que esté fuera). En la tabla t debemos especificar los grados de libertad que se manejan.
Si de una población Normal con media y desviación estándar se extrae una muestra de tamaño n, entonces el estadístico: se distribuye como una t de Student con n-1 grados de libertad.
Ejemplo Los tiempos de sobrevivencia (en años) de 12 personas que se han sometido a un transplante de corazón son los siguientes: 3.1 .9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5 Hallar un intervalo de confianza del 99 por ciento para el promedio de vida de todas las personas que se han sometido a un transplante de corazón.
Solución t0.99,11=3,106; El intervalo de confianza será: (5.4-3.106x4.1/3.46; 5.4+3.106x4.1/3.46) (5.4-3.7;5.4+3.7)=(1.7;9.1)
Prueba de hipotesis (varianza desconocida) Caso ICaso IICaso III Ho : =0 Ho : =0 Ho := Ha : <0 Ha : 0Ha : >0 Prueba Estadística Si tcal < -tentoncesSi |tcal |>t/2entonces Si tcal >tentonces se rechaza Ho se rechaza Ho se rechaza Ho
Usando los datos del Ejemplo anterior, un cardiocirujano afirma que el tiempo de vida promedio de las personas sometidas a transplante de corazón es mayor que 4 años. ¿A qué conclusión se llegará después de hacer la prueba de hipótesis? Solución: La hipótesis nula es H0: = 4 (el tiempo de vida promedio de todas las personas que se han sometido a transplante de corazón es de 4 años) y la hipótesis alterna es Ha: > 4 (el tiempo de vida promedio es mayor que 4 años). Es menor que 3.106 por lo tanto no se rechaza la hipótesis nula y se concluye de que no hay evidencia de que el tiempo promedio de vida después del transplante haya aumentado de 4 años. Notar que el extremo inferior del intervalo de confianza de un solo lado al 99% es 1.575 mucho menor que 4.
Prueba t de Student para grupos correlacionados e independientes
Comparando medias de dos poblaciones usando muestras pareadas En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, ó lo más parecidas posibles, para evitar influencia de otros factores en la comparación Sea Xi el valor del tratamiento I y Yi el valor del tratamiento II en el i-ésimo sujeto. Consideremos di = Xi - Yi la diferencia de los tratamientos en el i-ésimo sujeto. Las inferencias que se hacen son acerca del promedio poblacional d de las di. Si d = 0, entonces significa que no hay diferencia entre los dos tratamientos.
Intervalo de Confianza Un intervalo de confianza del 100(1-)% para la diferencia poblacional d dada una muestra de tamaño n es de la forma ( - t(n-1,/2) sd/ , + t(n-1,/2) sd/ ) donde , es la media de las diferencias muestrales di y es la desviación estándar.
Pruebas de Hipótesis Caso I Caso II Caso III Ho : d= 0 Ho : d= 0 Ho : d=0 Ha : d< 0 Ha : d 0 Ha : d>0 Prueba Estadística: t = se distribuye con una t de Student con n-1 gl. Decisión: Si t<-t entonces Si | t |>t/2 entonces Si Tcal >t entonces se rechaza Ho se rechaza Ho se rechaza Ho
Ejemplo Un médico desea investigar si una droga tiene el efecto de bajar la presión sanguínea en los usuarios. El médico eligió al azar 15 pacientes mujeres y les tomó la presión, luego les recetó la medicina por un período de 6 meses, y al final del mismo nuevamente les tomó la presión. Los resultados son como siguen:
Solución Solución: Sea d que representa la media poblacional de las diferencias. Luego: Ho: d = 0 (La droga no tiene ningún efecto) Ha: d > 0 (La droga tiene efecto, la presión antes de usar la droga era mayor que después de usarla).
Ejemplo (Cont.) Las diferencias son: -2, -8, -10, -6, -18, -10, -4, -26, -18, 8, 0, -32, 0, 4, -10. El promedio de las diferencias es -8.8 La desviación estándar de las diferencias es 10,98 La desviación estándar de las medias muestrales es 2.83 El valor crítico de t con 14 grados de libertad (n-1) y α=0.05 es 2.145, el valor calculado es superior, por lo tanto se rechaza la hipótesis nula y se acepta la alterna, el medicamento es efectivo para reducir la presión arterial
EJERCICIO • En capítulos anteriores usted aprendió a hacer inferencias acerca de una o dos medias, ahora aprenderemos a hacer lo mismo respecto de tres o más medias, supongamos para ello a tres grupos tomados al azar de 6 bachilleres graduados en diferentes colegios que se presentan a una prueba de admisión en la Universidad X, los bachilleres del colegio A han obtenido las notas: 20, 20, 18, 13, 19 y 18; los bachilleres del colegio B tienen: 18, 15, 12, 09, 14 y 16, por último, los bachilleres del colegio C tienen como resultado: 13, 15, 20, 18, 20 y 16. Queremos, en base a esos datos saber cuál es el colegio cuyos bachilleres obtienen mejores resultados en los exámenes de ingreso a la universidad.
Una primera aproximación para saberlo es obtener la media de cada colegio, fácilmente podemos ver que los estudiantes del colegio A tienen una media de 18, = (20+20+18+13+19+18)/6=18 los del colegio B tienen una media de 14 = (18+15+12+09+14+16)/6=14 y los del colegio C un promedio de 17 = (13+15+20+18+20+16)/6=17.
La varianza entre las medias es: • =[(18-16,33)2+(17-16,33)2+(14-16,33)2]/(3-1) [1] • =4.33 • La varianza dentro de los grupos es: • =[(20-18)2+(20-18)2+(18-18)2+(13-18)2+(19-18)2+(18-18)2+(18-14)2+(15-14)2+(12-14)2+(9-14)2+(14-14)2+(16-14)2+(13-17)2+(15-17)2+(20-17)2+(18-17)2+(20-17)2+(16-17)2]/[(6-1)+(6-1)+(6-1)] [2] • =(4+4+0+25+1+0+16+1+4+25+0+4+16+4+9+1+9+1)/15 • =124/15=8.27
[1] Nótese que sumamos los cuadrados de la diferencia entre la media de cada colegio y la media global y el total lo dividimos para el numero de colegios menos 1, ya que sólo tenemos dos grados de libertad debido a que la tercera media queda determinada por la media general. • [2] Sumamos los cuadrados de las diferencias con la media de cada colegio y dividimos el total de esta suma para el total de grados de libertad, de cada grupo.
La suma de las varianzas dentro de los grupos es 8,27 y la varianza de las medias es 4.33, para comparar estos valores dividimos el producto de 6 por la varianza entre las medias para la varianza dentro de los grupos y obtenemos F=3,15 • A esta cantidad la llamaremos coeficiente F en honor de Sir Ronald Fisher quien elaboró una tabla, que nos da la probabilidad de que la hipótesis nula sea verdadera, para utilizarla debemos observar los grados de libertad del numerador, que serían el número de colegios menos uno (2), y los grados de libertad del denominador (3 colegios por 6-1 bachilleres de cada colegio, o sea 15).
En la tabla buscamos en el extremo superior grados de libertad en el numerador, bajo la columna 2 y tratamos de encontrar la intersección con la fila donde dice grados de libertad del denominador, en este caso la fila con el numero 15. • El valor que hemos encontrado en la tabla, 3.68, es superior al valor que hemos calculado, 3,15 lo que nos indica que la probabilidad de que Ho sea verdadera es superior a 0.05 (5%).
Distribución ji-cuadrado -Nunca adopta valores menores de 0 -Es asimétrica positiva -Es en realidad una familia de curvas, en función de los llamados “grados de libertad”. Es decir, hay una distribución chi-cuadrado con 1 gl, una distribución chi-cuadrado con 2 gl, etc. (Nota: Los grados de libertad son siempre números positivos.) -A medida que aumentan los grados de libertad, la distribución se hace más y más simétrica.
Usos de la Ji-Cuadrado a) Para hacer inferencias acerca de la varianza poblacional. Es decir, para calcular Intervalos de Confianza y Prueba de hipótesis para la varianza poblacional. b) Para hacer pruebas de Bondad de Ajuste. O sea, para probar si un conjunto de datos sigue una distribución pre-determinada. c) Para hacer análisis de tablas de contingencia.
Por ejemplo, se divide un grupo de estudiantes en buenos y malos alumnos y se constató si tenían interés en problemas políticos, con nivel de significación del 1% ¿Se puede decir de los resultados que se muestran en la tabla a continuación si el interés por la política es independiente del hecho de ser o no buen estudiante?
De acuerdo al cuadro anterior • (100-72)2/72+(20-48)2/48+(20-48)2/48+(60-32)2/32=7,84+39,2+39,2+13,07=99,31 • Al consultar el valor crítico correspondiente de 2 encontramos • 20,95,(2-1)(2-1)=20,95,1=3,84 • Como el valor encontrado supera al valor crítico rechazamos la hipótesis nula (independencia entre las variables) y aceptamos la alterna, el interés político y el rendimiento académico no son independientes.
Gracias por su atención CONSULTAS, COMENTARIOS Y SUGERENCIAS A gfmorales@utpl.edu.ec