1 / 44

AVALIAÇÃO DA SUPOSIÇÃO DE NORMALIDADE

AVALIAÇÃO DA SUPOSIÇÃO DE NORMALIDADE. Referência: Johnson e Wichern, Cap. 4 setembro de 2011. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados.

Download Presentation

AVALIAÇÃO DA SUPOSIÇÃO DE NORMALIDADE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. AVALIAÇÃO DA SUPOSIÇÃO DE NORMALIDADE Referência: Johnson e Wichern, Cap. 4 setembro de 2011

  2. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. • A qualidade das inferências feitas por estes métodos depende de quão próxima é a população em estudo da normal multivariada. • Procedimentos para verificação de dados que apresentam desvios da suposição de normalidade se fazem necessários.

  3. PROBLEMA: As observações Xi parecem violar a suposição de normalidade? Estratégia – verificar se: as distribuições marginais univariadas do vetor aleatório parecem normais; os diagramas de dispersão das variáveis tomadas duas a duas têm uma aparência elíptica; existem observações discrepantes (outliers) que mereçam ser analisadas.

  4. Avaliação da normalidade das distribuições marginais Histogramas para tamanhos amostrais superiores ou iguais a 25 podem revelar situações nas quais uma cauda da distribuição seja mais pesada do que a outra. Se o histograma para a j-ésima componente do vetor de observações parece razoavelmente simétrico, podemos verificar a normalidade calculando a proporção de valores que caem em determinados intervalos comparando-a com a proporção esperada sob normalidade. (teste de aderência de qui-quadrado)

  5. Avaliação da normalidade das distribuições marginais Por exemplo, numa distribuição normal univariada a probabilidade de um valor cair no intervalo centrado na média de comprimento igual a dois desvios padrão é cerca de 68%; a probabilidade de um valor cair no intervalo centrado na média de comprimento igual a 4 desvios padrão é cerca de 95%; etc. Assim, se observarmos proporções amostrais muito diferentes do que se espera no caso da normal, a hipótese de normalidade deve ser descartada. Gráficos são sempre ferramentas úteis em qualquer análise de dados. Gráficos especiais são os chamados gráficos quantil-quantil (Q-Q plots) que podem ser usados para avaliar a suposição de normalidade.

  6. Gráficos quantil-quantil (Q-Q plots) Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus o quantil esperado sob normalidade. Podem ser usados para validar outras distribuições diferentes da normal. Quando a configuração de pontos no gráfico se aproxima de uma reta, a suposição de normalidade é sustentável. A normalidade é suspeita se houver pontos que se desviam do comportamento linear. A forma como os pontos se desviam do comportamento linear pode fornecer pistas sobre a natureza da não normalidade das observações. Conhecida a razão da não normalidade dos dados, ações corretivas podem ser tomadas: transformações visando normalizar os dados ou uso de técnicas para dados não normais.

  7. PASSOS NA CONSTRUÇÃO DO Q-Q plot Ordenar os n valores observados da j-ésima componente do vetor aleatório. Sejam as observações ordenadas. Os ‘s são os quantis amostrais (i=1,2,...,n). Se todos os quantis amostrais são distintos entre si, então exatamente i observações são menores ou iguais a A proporção i/nda amostra à esquerda de x(i)éfrequentemente aproximada para (i-0,5)/npor conveniência analítica (é uma correção de continuidade).

  8. PASSOS NA CONSTRUÇÃO DO Q-Q plot Para uma distribuição normal padrão, podemos obter os quantis q(i)tais que P(Z≤ q(i))=(i-0,5)/n, i=1,...,n. A idéia será olhar os pontos (q(i),x(i))com a mesma probabilidade acumulada (i-0,5)/n. Se os dados provêm de uma normal, os pares serão aproximadamente linearmente relacionados, pois o quantil esperado sob normalidade é aproximadamente σ q(i)+μ, com σ representando o desvio-padrão e μ a média da distribuição.

  9. Usando o R para a construção do Q-Q plot No R temos a função ppoints(n) que gera o vetor de valores(i-0,5)/n, para i variando de 1an. Para gerar os quantis esperados sob normalidade usaremos a função qnorm(p), que retorna o quantil cuja probabilidade acumulada é p. Quando não especificamos nada além dep, o R retorna quantis da N(0,1). A função usada para ordenar um vetor de números no R é a função sort(x).

  10. Construção do Q-Q plot das medidas do conjunto de dados crabs do pacote MASS Carregue o pacote MASS. Digite data(crabs). Os dados estão organizados de tal modo que as colunas de 4 a 8 representam medidas morfológicas de caranguejos de duas espécies (linhas 1 a 100 uma espécie, 101 a 200 a outra). Também há a divisão por gênero - macho (M) e fêmea (F) - tal que as 50 primeiras linhas de cada espécie são do gênero M e, as restantes, do gênero F. Vamos construir 20 gráficos quantil-quantil representando cada uma das 5 medidas dos 4 grupos caracterizados por espécie e gênero.

  11. Construção do Q-Q plot das medidas do conjunto de dados crabs do pacote MASS Como n=50 em cada grupo espécie e gênero, faça prop=ppoints(50) Calcule o vetor de quantis esperados sob normalidade: quantilesp=qnorm(prop) Ordene os valores observados: x1=sort(crabs[1:50,4]) Construa o gráfico: plot(quantilesp,x1). Para que os 20 gráficos fiquem numa única página use a função par(mfrow=c(4,5))

  12. Avaliação da normalidade das distribuições marginais Uma medida quantitativa para auxiliar na avaliação do Q-Q plot é calcular a correlação rQ entre os quantis esperados e o vetor observado ordenado. A hipótese de normalidade é rejeitada ao nível de significância α se rQobtido for menor que um valor apropriado. Por exemplo, ao nível de significância de 5% e amostras de tamanho 50, a hipótese deve ser rejeitada se rQ for inferior a 0,9768.

  13. Tabela: Pontos críticos para o teste de normalidade usando o coeficiente de correlação do Q-Q plot

  14. Correlações obtidas na base de dados crabs grupo 1:0,99290,98990,99240,99240,9910 grupo 2:0,99010,99390,99310,99400,9924 grupo 3:0,99020,99430,99070,99030,9893 grupo 4:0,99190,99030,99150,99120,9939 Valor crítico a 1%: 0,9671. Valor crítico a 5%: 0,9768. Valor crítico a 10%:0,9809. Assim, podemos dizer que o p-valor do teste é superior a 10% em todos os casos.

  15. Teste de normalidade de Shapiro-Wilk Este teste, proposto em 1965, calcula uma estatística W para verificar se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade. A estatística W é calculada de acordo com a seguinte equação:

  16. Teste de normalidade de Shapiro-Wilk • os x(i)’s são os valores amostrais ordenados e os ai‘s são constantesgeradas das médias, variâncias e covariâncias das estatísticas de ordem de uma amostra aleatória de tamanho n proveniente de uma distribuição normal. • Em comparação a outros testes de aderência, esse teste comporta-se bem. • No R existe a função shapiro.test(x).

  17. Resultados da aplicação do teste de normalidade de Shapiro-Wilk aos dados “CRABS” • data: x1 --> W = 0.9817, p-value = 0.6268 • data: x2 --> W = 0.9771, p-value = 0.4361 • data: x3 --> W = 0.9815, p-value = 0.6179 • data: x4 --> W = 0.9817, p-value = 0.6234 • data: x5 --> W = 0.9777, p-value = 0.4592 • data: y1 --> W = 0.9793, p-value = 0.5233 • data: y2 --> w = 0.9846, p-value = 0.7538 • data: y3 --> W = 0.9843, p-value = 0.7395 • data: y4 --> W = 0.9866, p-value = 0.8386 • data: y5 --> W = 0.9824, p-value = 0.6565 • data: z1 --> W = 0.9758, p-value = 0.3918 • data: z2 --> W = 0.9869, p-value = 0.8496 • data: z3 --> W = 0.9771, p-value = 0.4366 • data: z4 --> W = 0.9765, p-value = 0.4142 • data: z5 --> W = 0.9742, p-value = 0.3411 • data: w1 --> W = 0.9802, p-value = 0.5612 • data: w2 --> W = 0.9804, p-value = 0.5683 • data: w3 --> W = 0.9799, p-value = 0.5474 • data: w4 --> W = 0.9801, p-value = 0.5568 • data: w5 --> W = 0.9839, p-value = 0.7228

  18. shapiro.test versus correlação do Q-Q plot • No lugar do coeficiente de correlação do Q-Q plot, alguns pacotes estatísticos avaliam a estatística original proposta por Shapiro e Wilk (An Analysis of variance Test for Normality (Complete Samples), Biometrika, 52, 4, (1965), 591-611.) • Neste teste, a correlação é calculada substituindo os quantis q(j) por uma função do valor esperado das estatísticas de ordem da normal padrão e suas covariâncias. • Os autores preferem a correlação do Q-Q plot, pois ela corresponde diretamente aos pontos do gráfico. • Para tamanhos amostrais grandes, as duas estatísticas são aproximadamente a mesma, de modo que qualquer uma das duas pode ser usada para avaliar a aderência à normal.

  19. Combinações Lineares dos Componentes do Vetor Aleatório representa o maior autovalor de S, e o composto linear: representa o menor autovalor de S. Combinações lineares dos componentes do vetor aleatório podem igualmente ser investigadas quanto à normalidade. Alguns textos sugerem trabalhar com a combinação linear

  20. Combinações Lineares dos Componentes do Vetor Aleatório Para avaliar as combinações lineares sugeridas, primeiro devemos obter os n valores correspondentes a tais compostos. Por simplicidade, consideraremos apenas o primeiro grupo. A verificação para os demais grupos fica como um exercício. Primeiro vamos obter a decomposição espectral de S1 – a matriz de variâncias amostral da espécie 1, gênero F, fazendo S1=cov(crabs[1:50, 4:8]), DES1=eigen(S1). DES1 receberá dois objetos: o vetor de autovalores em ordem decrescente de magnitude e a matriz ortogonal na qual as colunas são os autovetores correspondentes.

  21. Combinações Lineares dos Componentes do Vetor Aleatório dados=matrix(0,50,5) #receberá as cinco combinações definidas pelos 5 autovetores corresponddentes a S1. for (i in 1:50) {for (j in 1:5) {dados[i,j]=DES1$vectors[,j]%*%t(crabs[i,4:8])}} Agora é só repetir o processo anterior para obter os 5 Q-Q plots. prop=ppoints(50) quantilesp=qnorm(prop) C1=sort(dados[,1]), C2=sort(dados[,2]), C3=sort(dados[,3]) C4=sort(dados[,4]), C5=sort(dados[,5]) par(mfrow=c(3,2)) plot(quantilesp, C1) ...

  22. Resultados

  23. Corrrelações no qqplot: • cor(quantilesp,c1): 0,9923 • cor(quantilesp,c2): 0,9939 • cor(quantilesp,c3): 0,9823 • cor(quantilesp,c4): 0,989 • cor(quantilesp,c5): 0,9822 • Novamente a suposição de normalidade univariada de cada componente é aceitável, com um p-valor superior a 10% para todas as variáveis.

  24. Shapiro.test: E1: W = 0.9812, p-value = 0.6055 E2: W= 0.9888, p-value = 0.9133 E3: W = 0.9729, p-value = 0.3035 E4: W = 0.9724, p-value = 0.2897 E5: W = 0.9661, p-value = 0.1603

  25. Avaliação da Normalidade bivariada • O ideal seria verificar a supos~ição de normalidade para todas as distribuições normais de duas, 3, ... , p dimensões. • Porém, para própositos práticos é, em geral, suficiente investigar as distribuições uni e bivariadas. • Se as observações tiverem sido geradas de fato de uma distribuição normal multvariada, cada distribuição bivariada será normale, os contornos de densidade constante apresentarão uma forma elíptica.

  26. Avaliação da Normalidade bivariada A grosso modo, devemos esperar que cerca de 50% das observações caiam na região, que corresponde a uma elipse, pois p=2. Assim, os diagramas de dispersão dos componentes do vetor aleatório tomados dois a dois devem exibir uma forma elíptica. Além disso, vimos que se , então

  27. Avaliação da Normalidade bivariada Na prática, como o vetor de médias e a matriz de covarâncias são desconhecidos, usa-se Calcular a fração de pontos dentro de um contorno de densidade constante e subjetivamente compará-la com a probabilidade teórica é um procedimento útil, porém impreciso.

  28. Avaliação da Normalidade bivariada Esse procedimento não é limitado ao caso p=2. Um método um pouco mais formal para julgar a normalidade bivariada é baseado nas distâncias quadradas generalizads

  29. Avaliação da Normalidade bivariada Quando a população é de fato normal multivariada e ambos n e n-p são maiores que 25 ou 30, cada uma das distâncias generalizadas quadradas devem comportar-se segundo uma distribuição de qui-quadrado com p graus de liberdade. Apesar dessas distâncias não serem independentes ou não terem distribuição exata de Qui-quadrado, é útil construir um gráfico como se fossem. O gráfico resultante é chamado gráfico qui-quadrado.

  30. Construção do gráfico qui-quadrado 2. Construa o gráfico de dispersão dos pontos: representando o 100(i-0,5)/n quantil da distribuição de qui-quadrado com p graus de liberdade. A nuvem de pontos deve se ajustar a uma reta passando pela origem e com inclinação 1. Um padrão diferente sugere falta de normalidade. 1. Ordene as distâncias quadradas amostrais obtendo

  31. Verificando a normalidade bivariada dos dados em crabs Para começar devemos calcular as distâncias quadradas. Defina a matriz de dados x=matrix(0,200,5) e faça x1=x[1:50,1:5]. Em seguida vamos calcular o vetor de médias m1=matrix(0,1,5) // for (i in 1:5){m1[i]=mean(x1[,i])} e a matriz de covariância amostral S1=cov(x1). Defina o vetor que receberá as distâncias quadradas: dquad1=matrix(0,50) e faça for (i in 1:50){dquad1[i]=(x1[i,]-m1)%*%solve(S1)%*%t(x1[i,]-m1)}

  32. Verificando a normalidade bivariada dos dados em crabs Em seguida obtenha o vetor prop=ppoints(50) para calcular o vetor de quantis (esperados) qui=qchisq(prop,5) Agora é só construir o gráfico. A figura a seguir mostra os gráficos obtidos para os quatro grupos. Também podemos calcular as porcentagens em cada caso das distâncias quadradas que ficaram abaixo do quantil de 50% da qui-quadrado com 5 graus de liberdade. Nesses caso em particular, observou-se 60%, 62%, 50% e 50%, respectivamente.

  33. Passos na Detecção de Outliers (valores destoantes) • 1) Construa diagramas de pontos de cada componente do vetor aleatório. • 2) Construa diagramas de dispersão dos componentes do vetor aleatório tomados 2 a 2. • 3) Calcule os valores padronizados de cada componente do vetor aleatório. Examine os valores absolutos padronzados que são muito grandes. • 4) Calcule as distâncias quadradas generalizadas. Examine essas distâncias para valores muito afastados da origem.

  34. Detecção de Outliers • No passo 3, “grande” deve ser interpretado realtivamente a n e a p. Por exemplo, se n=100 e p=5, então np=500 e espera-se que apenas um ou dosi deles, em valor absoluto, exceda a 3. Como uma referência, o valor 3,5 pode ser considerado grande para amostras de tamanho moderado. • No passo 4, “grande” é medido por um quantil apropriado da distribuição de qui-quadrado com p g.l. Por exemplo, se n=100, esperaria-se cerca de 5 observações excedendo o quantil

  35. Detecção de Outliers • Se outliers são identificados, eles devem ser examinados caso a caso. • Dependendo de sua natureza e dos objetivos da investigação eles deverão ser deletados ou apropriadamente ponderados numa análise posterior.

  36. Transformações para normalizar Se a suposição de normalidade dos dados não é plausível, que estratégia adotar? 1) Usar técnicas estatísticas apropriadas para dados não-normais, após verificar a distribuição plausível para os dados (Poisson, Gamma,etc.) 2) Transformar os dados para uma nova escala, sob a qual a suposição de normalidade é plausível. Aqui, somente trataremos da transformação, pois técnicas a serem estudadas a seguir são voltadas para dados normais. Transformações não são nada mais do que uma forma de reescrever os dados numa unidade diferente.

  37. Transformações úteis

  38. Transformações de normalização Em muitas situações a escolha para melhorar a aproximação normal não é óbvia. Para tais casos é conveniente deixar que os dados mostrem uma transformação. Uma família útil de transformações para esse propósito é a família de transformações de potências : xλ. As transformações de potência só estão definidas para variáveis positivas. Porém, isso não é tão restritivo quanto parece, porque uma única constante pode ser adicionada a cada observação no conjunto de dados se alguns dos valores observados forem negativos. 

  39. Transformações de normalização que é contínua em λ para x>0.  Dada a amostra, escolhe-se λ de modo a maximizar: Box e Cox consideraram a seguinte família de transformações de potência modificada:

  40. Transformações de normalização Observação: A transformação obtida geralmente melhora a aproximação à normalidade. Porém, não há garantias de que mesmo a melhor escolha de λ produzirá um conjunto de dados transformados que seja adequado à suposição de normalidade. Os resultados obtidos por uma transformação selecionada de acordo com esse procedimento devem ser cuidadosamente examinados para possíveis violações da suposição de normalidade. Essa recomendação de fato vale para qualquer transformação usada.

  41. Transformações de normalização • Com observações multivariadas uma transformação de potência deve ser usada para cada componente do vetor de observações.

More Related