510 likes | 1k Views
ANALISIS DE VARIANZA. Mario Briones L. MV, MSc 2005. Herramienta mediante la cual la variación total presente en un conjunto de datos se distribuye en varios componentes. Asociada con cada uno de estos componentes hay una fuente específica de variación,
E N D
ANALISIS DE VARIANZA Mario Briones L. MV, MSc 2005
Herramienta mediante la cual la variación total presente en un conjunto de datos se distribuye en varios componentes. Asociada con cada uno de estos componentes hay una fuente específica de variación, de modo que en el análisis es posible averiguar la magnitud de las contribuciones de cada una de estas fuentes a la variación total.
La base del ANDEVA radica en la partición de las varianzas En el siguiente cuadro observe: La diferencia entre los promedios
La base del ANDEVA radica en la partición de las varianzas En el siguiente cuadro observe: La similitud de la suma de cuadrados al interior de cada grupo
La base del ANDEVA radica en la partición de las varianzas En el siguiente cuadro observe: El contraste con la magnitud de la suma total de cuadrados
La base del ANDEVA radica en la partición de las varianzas En el siguiente cuadro observe: La diferencia se debe a la diferencia entre los promedios
DEP VAR: VALOR N: 6 MULTIPLE R: 0.926 SQUARED MULTIPLE R: 0.857 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P GRUPO 24.000 1 24.000 24.000 0.008 ERROR 4.000 4 1.000 Se observa que la suma total de cuadrados (28) fue dividida en una variabilidad dentro de grupo (2+2=4) y una variabilidad debida a las diferencias entre promedios (28-(2+2)=24).
Suma de cuadrados del error (SCError) y Suma de cuadrados de efectos (SCEfecto) La suma de cuadrados dentro de grupos también se le llama Varianza del Error. Denota el hecho de que es una fracción de la varianza que no podemos explicar con el diseño elegido. Podemos explicar la fracción de varianza en la SCEfecto.
PRUEBAS DE SIGNIFICANCIA En el análisis de varianza, la realización de pruebas de significancia se basa en una comparación de la varianza debida a la variabilidad ENTRE GRUPOS (CMEfecto) y a la variabilidad DENTRO DE GRUPOS (CMError). Bajo la hipótesis nula, aún puede haber pequeñas fluctuaciones en la media de dos grupos, especialmente si las muestras son pequeñas, por lo tanto, de acuerdo con esta hipótesis, la variabilidad en ambas fuentes debería ser más o menos la misma. La prueba de F, evalúa la tasa de las estimaciones de ambas varianzas para determinar si es significativamente mayor que uno.
1. Modelo. El modelo consiste en una representación simbólica de un valor típico tomado de los datos que se están analizando. 2. Supuestos. Se especificarán las suposiciones que fundamentan el modelo. 3. Hipótesis. Se indicarán las hipótesis que pueden probarse de acuerdo al modelo. 4. Cálculos. Cálculos aritméticos apropiados. 5. Tabla de ANDEVA. Resumen de los cálculos aritméticos 6. Decisión. Decisión estadística acerca del rechazo o aceptación de la hipótesis nula.
Peso final m s2
Yi Yi Yi Yi Yi Yi Yi Yi Yi Yi Yi Yi Yi Yi
Yij Yij Yij Yij Yij Yij Yij Yij Yij Yij Yij Yij Yij Yij
Modelo lineal de explicación de los componentes de varianza. Yij= m + ai +eij Yij: observación individual m: media general ai: efecto del i ésimo grupo (i=1,2) e: error residual inexplicado
Una representación diagramática del Análisis de varianza Media del grupo A2 A2 A1 A3 Media general Desviación individual m
Efectos fijos versus efectos aleatorios Efectos fijos escogidos específicamente por el experimentador. Para probar hipótesis acerca de los promedios de los grupos. Las conclusiones se aplican sólo a los niveles del factor considerado en el análisis y no a tratamientos similares que no fueron considerados Efectos aleatorios En este caso los tratamientos son una muestra al azar de una población mayor de tratamientos posibles. En esta situación interesa extender las conclusiones a todos los tratamientos posibles, hayan sido considerados explícitamente o no.
Análisis de varianza de un factor (efectos fijos) Datos: observaciones Media Grupo 1 Y11 Y12 .... Y1n + A1 Grupo 2 Y21 Y22 .... Y2n +A2 . . . . . Grupo k Yk1 Yk2 .... Ykn + Ak donde Yij= observaciones = media general Ai = desviaciones del i-ésimo grupo desde la media general ij = error residual inexplicado Modelo Lineal Yij= Ai + ij i=1,...k; j=1,...n
Hipótesis= H0: no hay diferencia entre las medias, Ai= 0 H1: existen diferencias entre medias de grupos Notación n Yi.=Yij = suma de los observaciones individuales j dentro de cada grupo, desde j=1 hasta n (el total de cada grupo) j=1 n k Y..=Yij = gran total, suma de observaciones, primero dentro de grupos y luego a través de grupos, desde i=1 hasta k (total de grupos) j=1 i=1
Calculo de ANDEVA simplificado (efectos fijos) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio k (Yi.)2 entre grupos (Y..)2 SCG CMG k - 1 n N k - 1 CMR i=1 dentro de grupos (residual) SCR N - k por diferencia N- k Y2.. - ( (Y..)2 ) Total N - 1 N N= nk SCG= suma de cuadrados de grupos SCR= suma de cuadrados residual CMG/CMR= cuadrado medio grupos/cuadrado medio residual
Suponga que 30 pollitos de un día fueron asignados al azar a tres grupos, en cada uno de ellos se adicionó un antibiótico promotor del crecimiento diferente, A, B, y C. Al termino de la recría los pesos de los pollitos fueron los siguientes (en gramos): ANTIBIOTICO A B C 72 78 85 70 76 83 74 73 80 73 75 79 73 74 80 71 74 82 73 75 89 71 76 76 75 70 79 70 75 83 Promedio 72.2 74.6 81.6 Hipótesis nula: no hay diferencias entre los promedios de los grupos, equivalente a: los efectos de los grupos son iguales a cero.
A B C 72 78 85 70 76 83 74 73 80 73 75 79 73 74 80 71 74 82 73 75 89 71 76 76 75 70 79 70 75 83 (Y..)2 = 173888.53 N Yi. 722 746 816 Y.. = 2284 Y2i. 52154 55692 66706 Y2.. = 174552 Suma de cuadrados Totales= Suma de Cuadrados + Suma de Cuadrados de tratamientos del error El total de la varianza está representado por la suma de cuadrados totales, que se divide o reparte en las causas de variación identificadas en el diseño: variación entre tratamientos o grupos y variación dentro de grupos.
Calculo de ANDEVA simplificado (efectos fijos) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio 238.5 174365.6-173888.53 entre grupos 477.07 6.91 2 2 477.07 34.5 238.5 dentro de grupos (residual) 186.6 por diferencia 27 27 186.4 6.91 174552 - 173888.53 Total 29 663.47 N= nk SCG= suma de cuadrados de grupos SCR= suma de cuadrados residual CMG/CMR= cuadrado medio grupos/cuadrado medio residual
Si los promedios son diferentes Comparaciones pareadas: comprobar H0: mA-mB 0 Donde A y B son los grupos comparados, dentro del experimento y s2 es el cuadrado medio residual La comparación se efectúa con los grados de libertad del término de error o residual en la tabla de t
Otras pruebas • Tukey • Duncan • Scheffé • Diferencia mínima significativa (LSD) • Bonferroni • Student Newman Keuls
ANALISIS DE VARIANZA DE UN FACTOR CON EFECTOS ALEATORIOS. MODELO Yij= m + Ai + eij i= 1,... k; j= 1,.....n j= 1,....ni (distinto n) Donde Yij= observaciones individuales m= media general eij= error residual, y eij: NID (0,s2) A diferencia del análisis de varianza con efectos fijos, la hipótesis nula en este caso es: H0= s2A= 0 además, normalmente k es de gran tamaño
Calculo de ANDEVA simplificado (efectos aleatorios) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio k (Yi.)2 entre grupos (Y..)2 SCG CMG k - 1 n N k - 1 CMR i=1 dentro de grupos (residual) SCR k(n-1) por diferencia k(n-1) Y2..-( (Y..)2 ) Total nk - 1 N N= nk SCG= suma de cuadrados de grupos SCR= suma de cuadrados residual CMG/CMR= cuadrado medio grupos/cuadrado medio residual
Ejemplo: Análisis de Varianza con más de un factor Dos razas de ovejas, Suffolk y Scottish Blackface, son ubicadas en dos diferentes ambientes, A: llanura regada y B: montaña. Durante la crianza de los corderos se controla el peso de destete de un grupo de 120 corderos de cada raza (60 en cada ambiente) 1. H0: no hay diferencias en los pesos de destete entre las dos razas HA: existe diferencia en los pesos de destete de las dos razas. 2. H0: no hay diferencias entre los dos ambientes para el peso al destete HA: el peso de destete es diferente en los dos ambientes. Las sumatorias de los datos son las siguientes: Raza Predio Suffolk SBFace valle montaña SX 1962 1970 1899 2033 SX2 64680 66526 61115 70091
Calculo de ANDEVA asumiendo sólo efecto de la raza Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio 0.56 128839.1-128838.5 entre razas 0.56 20 1 1 0.56 0.028 0.56 dentro de razas (residual) 2366.8 por diferencia 118 118 2366.84 20 131206-128838.5 Total 119 2367.4 Modelo: Yij= m + Ri + eij Yij: observación individual m: media general Ri: efecto de la iésima raza eij: error residual
Calculo de ANDEVA asumiendo sólo efecto del predio Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio 150 128988.1-128838.5 entre predios 150 18 1 1 150 8.3 150 dentro de predios (residual) 2217.9 por diferencia 118 118 2217.9 18 131206-128838 Total 119 2368 Modelo: Yij= m + Pi + eij Yij: observación individual m: media general Pi: efecto del iésimo predio eij: error residual
ANALISIS DE VARIANZA DE DOS FACTORES CON EFECTOS FIJOS. MODELO Yijk= m + Pi + Rj + eijk i= 1,..s; j=1,...t; k= 1,...n Yijk: observación individual m: media general Pi: efecto del iésimo predio Rj: efecto de la iésima raza eijk: error residual inexplicado eijk: NID (0,s2) s t S Pi= 0 S Ri= 0 i=1 j=1 Ejemplo: dos o más razas de ovejas son evaluadas en su productividad en dos o más predios (o regiones).
Calculo de ANDEVA dos factores (efectos fijos, igual número de observaciones por nivel) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio CM predios s (Yi..)2 entre predios (Y...)2 SCpredios s - 1 CM res tn N s - 1 i=1 CM razas t (Y.j.)2 entre razas SCrazas (Y...)2 t -1 CM res t - 1 sn N j=1 SCresidual Residual nst-s-t+1 Por diferencia nst-s-t+1 Y2... - ( (Y...)2 ) Total nst - 1 N Fpredios= Fs-1, nst-s-t+1 Frazas= Ft-1, nst-s-t+1
Calculo de ANDEVA dos factores (efectos fijos, igual número de observaciones por nivel) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio 128988.1-128838.5 entre predios 16.6 150 1 150 128839.1-128838.5 entre razas 0.56 1 0.56 Residual 117 9 2216.8 131206-128838 Total 119 2368 Fpredios= Fs-1, nst-s-t+1 Frazas= Ft-1, nst-s-t+1
Grados de libertad según fuente de variación: Total de predios: s= 2 (Yi..) Total de razas: t= 2 (Y.j.) Total de observaciones por nivel: n= 60 Según el valor de F para 1 grado de libertad de razas y 117 para error y 95% de probabilidad (aprox 3.92), se acepta la primera hipótesis nula Según el valor de F para 1 grado de libertad de predios y 117 para error 1 95 % de probabilidad (3.92), se rechaza la segunda hipótesis nula. Estarán identificadas ahora todas las causas de variación en el modelo?
Variable Efecto B Efecto B 1 2 Efecto A
Variable Efecto B Efecto B 1 2 Efecto A
Variable Efecto B INTERACCION Efecto B 1 2 Efecto A
Variable Efecto B INTERACCION Efecto B 1 2 Efecto A
Cálculo de ANDEVA dos factores con interacción (efectos fijos) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio CM predios 128988.1-128838.5 entre predios SCpredios s - 1 CM res 150 s - 1 CM razas 128839.1-128838.5 entre razas SCrazas t -1 0.56 CM res t - 1 CM interac SCinterac interacción (s-1)(t-1) resta (s-1)(t-1) CM res (Yij.)2 SCresidual Residual resta - SS Y2... n nst-s-t+1 131206-128838 Total nst - 1 2368 Fpredios= Fs-1, nst-s-t+1 Frazas= Ft-1, nst-s-t+1 F interacción= F(s-1)(t-1), residual
1. H0: no hay diferencias en los pesos de destete entre las dos razas HA: existe diferencia en los pesos de destete de las dos razas. 2. H0: no hay diferencias entre los dos ambientes para el peso al destete HA: el peso de destete es diferente en los dos ambientes. 3. H0: no hay efecto combinado del predio y la raza. HA: existe efecto combinado del predio y la raza SYi.. Y Predio 1 raza 1 1034 34.47 Predio 1 raza 2 928 30.93 Predio 2 raza 1 865 28.83 Predio 2 raza 2 1105 36.83
Cálculo de ANDEVA dos factores con interacción (efectos fijos) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio CM predios s (Yi..)2 entre predios (Y...)2 SCpredios 1 CM res tn N s - 1 i=1 CM razas t (Y.j.)2 entre razas SCrazas (Y...)2 1 CM res sn N j=1 t - 1 CM interac SCinterac interacción (s-1)(t-1) resta (s-1)(t-1) CM res (Yij.)2 SCresidual Residual resta - SS Y2... n nst-s-t+1 Y2... - ( (Y...)2 ) Total 119 N Fpredios= Fs-1, nst-s-t+1 Frazas= Ft-1, nst-s-t+1 F interacción= F(s-1)(t-1), residual
Cálculo de ANDEVA dos factores con interacción (efectos fijos) Fuente de grados de suma de cuadrado F Variación libertad cuadrados medio CM predios 128988.1-128838.5 entre predios SCpredios s - 1 CM res 150 s - 1 CM razas 128839.1-128838.5 entre razas SCrazas t -1 0.56 CM res t - 1 CM interac SCinterac interacción (s-1)(t-1) resta (s-1)(t-1) CM res (Yij.)2 SCresidual Residual resta - SS Y2... n nst-s-t+1 131206-128838 Total nst - 1 2368 Fpredios= Fs-1, nst-s-t+1 Frazas= Ft-1, nst-s-t+1 F interacción= F(s-1)(t-1), residual