1 / 65

Análise Exploratória de Dados

Análise Exploratória de Dados . R - LIG -07. Objetivos. Definir e construir gráficos de quantis . Trabalhar com transformações de variáveis buscando “ simetrizar ” os dados. Definir medidas de assimetria e curtose. Gráficos de quantis.

betha
Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Exploratória de Dados R - LIG -07

  2. Objetivos • Definir e construir gráficos de quantis. • Trabalhar com transformações de variáveis buscando “simetrizar” os dados. • Definir medidas de assimetria e curtose.

  3. Gráficos de quantis • É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis. • No eixo das abscissas, colocamos os valores de p e no eixo das ordenadas os valores de q(p). • Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p.

  4. Gráficos de quantis: exemplo • Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt. • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados2bm.txt”,header=T) • Defina o vetor de valores de p da seguinte forma: • prop<-c(0:10) • prop<-prop/10

  5. Gráficos de quantis: exemplo • Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações: • quantis<-quantile(dados$pop10mil,prop) • Finalmente, trace o gráfico usando a função plot: • plot(prop,quantis,main=“Gráfico de quantis dos dados sobre população”,sub=“30 maiores municípios brasileiros”)

  6. volta

  7. Para que os pontos sejam unidos por segmentos, insira o argumento type=“l”na função plot.

  8. Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=“b”na função plot.

  9. Gráficos de quantis (cont.) • O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). • Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam-se como os pontos do canto inferior esquerdo.

  10. Gráficos de quantis (cont.) • Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo. • No exemplo anterior, claramente percebemos uma assimetria positiva.

  11. Gráficos de quantis: exemplo • Vejamos um exemplo com dados aproximadamente simétricos. • source(“m:\\aulas\\natalie\\aed\\exemplo2a7.txt”) volta

  12. Gráficos de quantis: exemplo • Vejamos um exemplo de conjunto de dados com assimetria negativa. • source(“m:\\aulas\\natalie\\aed\\exemplo3a7.txt”) volta

  13. Exercício 1 • Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono. volta

  14. Transformações • Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica.

  15. Transformações • Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos.

  16. Transformações (cont.) • Existem métodos estatísticos que são desenvolvidos para dados não normais. • Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter este tipo de comportamento, o que se pode fazer é uma transformação destes dados visando a simetrização.

  17. Transformações (cont.) • Uma família de transformações freqüentemente explorada é Normalmente, o que se faz é experimentar valores de p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4, 1/3,1/2,1,2,3,...

  18. Transformações (cont.) • Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado. • Para dados positivos, a distribuição é geralmente assimétrica à direita.

  19. Transformações (cont.) • Para essas distribuições, a transformação sugerida com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente, a valores pequenos. • Para distribuições assimétricas à esquerda, experimente valores de p maiores que 1.

  20. Dados sobre emissão de dióxido de carbono • Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita. • Proponha uma transformação que torne os dados aproximadamente simétricos.

  21. Continuação do exemplo Pela sugestão anterior, devemos buscar um valor de p que esteja entre 0 e 1. Aqui, teríamos problema com a transformação logarítmica, pois há uma observação com emissão 0. Na figura a seguir, foi solicitado um boxplot para valores de p que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.

  22. Continuação do exemplo • É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica. • Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.

  23. Exercício 2 • Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados.

  24. Exercício 2 (conclusão) • Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica. • Isto pode ser confirmado pelo boxplot e pelo histograma das notas.

  25. Exercício 3 • Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt). • Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica.

  26. Exercicio 3(cont.) • Construindo o boxplot de densidade demográfica,percebe-se, claramente, forte assimetria positiva.

  27. Transformações • Como os dados são todos positivos, podemos começar tentando a transformação logarítmica. • boxplot(log(dados$dd))

  28. Outras transformações Podemos então tentar valores de p entre 0 e 1.

  29. Continuação • É possível verificar que a assimetria na caixa é acentuada e aparece em todas as tentativas. • Uma saída (exploratória) é escolher a transformação na qual a caixa é o menos assimétrica possível.

  30. Continuação • Por exemplo, a transformação f que minimiza • O problema com a proposta anterior é que corremos o risco de encontrar a melhor transformação para os dados centrais, mas encontrar forte assimetria nas caudas. • Enfim, nem sempre existirá uma transformação ideal para os nossos dados!

  31. Exercício 4 • Trabalhe com a base de dados sobre veículos. • Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria. • Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização.

  32. Leitura e organização dos dados • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados7bm.txt”,header=T)

  33. Continuação • É possível verificar que a maior assimetria ocorre na distribuição da variável preço. • Além disso, que a assimetria é positiva. • Tente a transformação logarítmica, pois os preços são todos positivos.

  34. Exercício 5 • Considere a variável CO (gás carbônico nos dados sobre poluição (dados4bm.txt). • Calcule as principais medidas de posição e dispersão. • Construa um histograma, ramo-e-folhas e boxplot. • Comente sobre a forma da distribuição desta variável.

  35. dados<-read.table(”m:\\auulas\\natalie\\aed\\ dados4bm.txt",header=T) names(dados) [1] "data" "CO" "O3" "temp" "umid" summary(dados$CO) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.700 6.300 7.200 7.464 8.025 12.500 sd(dados$CO) [1] 1.543912 range(dados$CO) [1] 4.7 12.5 IQR(dados$CO) [1] 1.725

  36. 4 | 77 5 | 12 5 | 55677789 6 | 1111122222222233333444444 6 | 5666677777899999999 7 | 00122233444 7 | 5566777778888899999999 8 | 012334 8 | 55678999 9 | 0114 9 | 557 10 | 1333 10 | 8 11 | 4 11 | 69 12 | 0 12 | 5 Ramo-e-folhas

More Related