270 likes | 1.07k Views
ANÁLISE DE VARIÂNCIA MULTIVARIADA - MANOVA. Outubro de 2008. OBJETIVOS DA AULA. Usar o R para realizar análises de variância univariadas (aov) e multivariadas (manova). Realizar comparações simultâneas no caso de rejeição da hipótese nula de ausência de efeito de tratamento. EXEMPLO 1.
E N D
ANÁLISE DE VARIÂNCIA MULTIVARIADA - MANOVA Outubro de 2008
OBJETIVOS DA AULA • Usar o R para realizar análises de variância univariadas (aov) e multivariadas (manova). • Realizar comparações simultâneas no caso de rejeição da hipótese nula de ausência de efeito de tratamento.
EXEMPLO 1 • Para começar vamos trabalhar com a base de dados milk.txt. • Descrição dos dados: as unidades de observação referem-se a caminhões de transporte de leite e os dados observados são custos (combustível, consertos, capital) associados ao veículo. O fator refere-se ao tipo de combustível que pode ser gasolina ou diesel.
Dados de transporte de leite • Primeiro, é necessário verificar se as suposições básicas do modelo são plausíveis: normalidade e variância constante. • milk=read.table(http://www.im.ufrj.br/~flavia/mad484/milk.txt,header=T) • Para isso vamos usar as funções Shapiro.test (verifica a normalidade dos dados) e var.test (realiza um teste de comparação das variâncias nos dois tipos de combustível).
Dados de transporte de leite • Verificadas as suposições básicas, estamos prontos para realizar a análise de variância univariada para verificar a hipótese de não haver diferença nas médias de custo de combustível. • comb=aov(milk$x1~milk$comb)
TABELA ANOVA PARA CUSTO DE COMBUSTÍVEL • summary(comb) g.l. SQ QM F p-valor • tratamento 1 19,96 19,96 2,7874 0,1007 • resíduos 55 393,80 7,16 • Total 56 413,76 • Portanto, não rejeitamos a hipótese nula de igualdade entre os custos médios de combustível.
Análise de variância do custo sobre consertos • cons=aov(milk$x2~milk$comb) • summary(cons) • g.l. SQ QM F p-valor • tratamento 1 134,34 134.34 7,1096 0.01005 * • resíduos 55 1039,26 18.90 Portanto, ao nível de significância de 5%, rejeitamos a hipótese nula de igualdade entre as médias de custo de conserto para os dois tipos de caminhão.
Análise de variância do custo sobre capital • cap=aov(milk$x3~milk$comb) • summary(cap) • gl SQ QM F p-valor • Tratamento 1 1016,25 1016,25 39,307 5.885e-08 • Residuals 55 1421,98 25,85 • Portanto, para esse custo também rejeitamos a hipótese nula.
Análise de variância multivariada • Agora vamos realizar a análise de variância multivariada. Observe que aqui também é necessário verificar as suposições básicas do modelo, a saber, normalidade, variância igual e independência entre as diferentes observações. • Será necessário carregar o pacote stats do R.
ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO • Vimos em aula a estatística lambda de Wilks dada pela razão entre os determinantes da matriz de somas de quadrados e produtos cruzados devida aos resíduos sobre o determinante da matriz de somas de quadrados e produtos cruzados da variação total. • Quanto menor for o valor dessa estatística, maior a evidência a favor da hipótese nula de ausência de efeito de tratamento.
ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO • Outras estatísticas usadas para esse teste são baseadas nos auto-valores da matriz • Sejam • Estatística de Hotelling-Lawley: • Estatística de Pillai: • Estatística de Roy: os respectivos auto-valores
ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO • O R calcula todas essas estatísticas. • Voltando aos dados de transporte de leite, suponha que após análise inicial, as suposições básicas do modelo tenham sido consideradas adequadas (normalidade, variâncias iguais e independência das observações).
MANOVA • Após carregar o pacote stats, defina o vetor-resposta Y de dimensão 3 por: • Y=cbind(milk$x1,milk$x2,milk$x3) • Defina o fator combustível por • classe=milk$comb • Faça então: • geral=manova(Y~classe) • geral2=summary.manova(geral)
Call: manova(Y ~ classe) Terms: classe Residuals resp 1 19.9576 393.7967 resp 2 134.3407 1039.2641 resp 3 1016.249 1421.979 Deg. of Freedom 1 55 Residual standard error: 2.675806 4.34692 5.084699 geral2$SS $classe [,1] [,2] [,3] [1,] 19.95757 -51.77947 -142.4144 [2,] -51.77947 134.34071 369.4910 [3,] -142.41438 369.49102 1016.2490 $Residuals [,1] [,2] [,3] [1,] 393.7967 186.8572 157.6213 [2,] 186.8572 1039.2641 311.6113 [3,] 157.6213 311.6113 1421.9791
geralW=summary.manova(geral,test="Wilks") • geralP=summary.manova(geral,test="Pillai") • geralR=summary.manova(geral,test="Roy") • geralHL=summary.manova(geral,test="Hotelling-Lawley") • Df Wilks approx F num Df den Df Pr(>F) • classe 1 0.5122 16.8262 3 53 8.358e-08 *** • Df Pillai approx F num Df den Df Pr(>F) • classe 1 0.4878 16.8262 3 53 8.358e-08 *** • Df Roy approx F num Df den Df Pr(>F) • classe 1 0.9524 16.8262 3 53 8.358e-08 *** • Df Hotelling-Lawley approx F num Df den Df Pr(>F) • classe 1 0.9524 16.8262 3 53 8.358e-08 *** • Residuals 55 • Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Resultado • Verifica-se então que os dados não trazem evidência a favor da hipótese nula, de modo que rejeita-se H0.
Comparações Múltiplas • Quando a hipótese de ausência de efeito de tratamento é rejeitada, os efeitos que levaram à rejeição da hipótese são de interesse. • Para comparações duas a duas, a abordagem de Bonferroni pode ser usada para construir intervalos simultâneos de confiança para as diferenças dos efeitos de tratamento tomados dois a dois. • Esses intervalos serão mais estreitos que os intervalos simultâneos T2 obtidos para todos os contrastes.
No exemplo de transporte de leite, a hipótese nula foi rejeitada. Obtenha os intervalos de confiança de Bonferroni. Observe que como k=2 e p=3, teremos ao todo 3 contrastes a serem analisados, referindo-se às diferenças nas médias de cada uma das três componentes.
Como exercício obtenha os três intervalos e tire Suas conclusões.
Como segunda atividade vamos analisar os dados crabs sobre medidas morfológicas de duas espécies de caranguejos. Será necessário carregar o pacote MASS para obter os dados.