640 likes | 818 Views
Análise Exploratória de Dados - 2006. R - LIG -07. Resultados da Prova 1 turma MAA: 20 alunos - 2005. summary(notas) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.60 4.80 5.70 5.69 6.30 8.20 . Resultados da Prova 1 turma MAA: 38 alunos - 2006. Min. 1,8
E N D
Análise Exploratória de Dados - 2006 R - LIG -07
Resultados da Prova 1 turma MAA: 20 alunos - 2005 summary(notas) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.60 4.80 5.70 5.69 6.30 8.20
Resultados da Prova 1 turma MAA: 38 alunos - 2006 Min. 1,8 Q1 5,35 Q2 6,75 Q3 8,075 Max. 9,5 Média 6,45 Desvio-padrão2,13
Objetivos • Definir e construir gráficos de quantis. • Trabalhar com transformações de variáveis buscando “simetrizar” os dados. • Definir medidas de assimetria.
Gráficos de quantis • É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis. • No eixo das abscissas colocamos os valores de p e no eixo das ordenadas os valores de q(p). • Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p.
Gráficos de quantis: exemplo • Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt. • dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados2bm.txt”,header=T) • Defina o vetor de valores de p da seguinte forma: • prop=c(0:10) • prop=prop/10
Gráficos de quantis: exemplo • Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações: • quantis=quantile(dados$pop10mil,prop) • Finalmente, trace o gráfico usando a função plot: • plot(prop,quantis,main=“Gráfico de quantis dos dados sobre população”,sub=“30 maiores municípios brasileiros”)
Para que os pontos sejam unidos por segmentos, insira o argumento type=“l”na função plot.
Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=“b”na função plot.
Gráficos de quantis (cont.) • O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). • Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam-se como os pontos do canto inferior esquerdo.
Gráficos de quantis (cont.) • Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo. • No exemplo anterior, claramente percebemos uma assimetria positiva.
Gráficos de quantis: exemplo • Vejamos um exemplo com dados aproximadamente simétricos. • source(“http://www.im.ufrj.br/~flavia/aed06/exemplo2a7.txt”) volta
Gráficos de quantis: exemplo • Vejamos um exemplo de conjunto de dados com assimetria negativa. • source(“http://www.im.ufrj.br/~flavia/aed06/exemplo3a7.txt”) volta
Exercício 1 • Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono. volta
Transformações • Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica.
Transformações • Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos.
Transformações (cont.) • Existem métodos estatísticos que são desenvolvidos para dados não normais. • Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter esse tipo de comportamento, o que se pode fazer é uma transformação desses dados visando a simetrização .
Transformações (cont.) • Uma família de transformações freqüentemente explorada é Normalmente, o que se faz é experimentar valores de p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4, 1/3,1/2,1,2,3,...
Transformações (cont.) • Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado. • Para dados positivos, a distribuição é geralmente assimétrica à direita.
Transformações (cont.) • Para essas distribuições, a transformação sugerida com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente a valores pequenos. • Para distribuições assimétricas à esquerda experimente valores de p maiores que 1.
Dados sobre emissão de dióxido de carbono • Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita. • Proponha uma distribuição que torne os dados aproximadamente simétricos.
Continuação do exemplo Pela sugestão anterior, devemos buscar por um valor de p que esteja entre 0 e 1. Aqui, teríamos problema com a transformação logarítmica, pois há uma observação com emissão 0. Na figura a seguir, foi solicitado um boxplot para valores de p que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.
Continuação do exemplo • É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica. • Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.
Exercício 2 • Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados.
Exercício 2 (conclusão) • Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica. • Isto pode ser confirmado pelo boxplot e pelo histograma das notas.
Exercício 3 • Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt). • Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica.
Exercicio 3(cont.) • Construindo o boxplot de densidade demográfica, percebe-se, claramente, forte assimetria positiva.
Transformações • Como os dados são todos positivos, podemos começar tentando a transformação logarítmica. • boxplot(log(dados$dd))
Exercício 4 • Trabalhe com a base de dados sobre veículos. • Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria. • Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização.
Leitura e organização dos dados • dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados7bm.txt”,header=T)
Continuação • É possível verificar que a distribuição da variável preço apresenta assimetria positiva. • Tente a transformação logarítmica, pois os preços são todos positivos.
Exercício 5 • Considere a variável CO(gás carbônico nos dados sobre poluição (dados4bm.txt). • Calcule as principais medidas de posição e dispersão. • Construa um histograma, ramo-e-folhas e boxplot. • Comente sobre a forma da distribuição desta variável.
dados=read.table(”http://www.im.ufrj.br/~flavia/ aed06/dados4bm.txt",header=T) names(dados) [1] "data" "CO" "O3" "temp" "umid" summary(dados$CO) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.700 6.300 7.200 7.464 8.025 12.500 sd(dados$CO) [1] 1.543912 range(dados$CO) [1] 4.7 12.5 IQR(dados$CO) [1] 1.725
4 | 77 5 | 12 5 | 55677789 6 | 1111122222222233333444444 6 | 5666677777899999999 7 | 00122233444 7 | 5566777778888899999999 8 | 012334 8 | 55678999 9 | 0114 9 | 557 10 | 1333 10 | 8 11 | 4 11 | 69 12 | 0 12 | 5 Ramo-e-folhas
Forma da distribuição • Os dados apresentam assimetria positiva não muito acentuada. • Verifique como fica a distribuição na escala logarítmica desta variável. • Repita esta análise uni-variada para as outras variáveis dos dados sobre poluição (ozônio, umidade, temperatura).