1 / 72

Análise Exploratória de Dados

Análise Exploratória de Dados. Mais sobre ramo-e-folhas e histogramas / Medidas de Posição. Objetivos da aula. Trabalhar com transformações de escala; detalhar argumentos da função stem (ramo-e-folhas); construir um diagrama de pontos;

nara
Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Exploratória de Dados Mais sobre ramo-e-folhas e histogramas / Medidas de Posição

  2. Objetivos da aula • Trabalhar com transformações de escala; • detalhar argumentos da função stem (ramo-e-folhas); • construir um diagrama de pontos; • trabalhar com a representação de uma série temporal (variável quantitativa observada ao longo do tempo); • construir mais de um gráfico na mesma janela; • definir as medidas: média, mediana e moda.

  3. Data(islands) Os dados a seguir fazem parte do elenco de exemplos do R. Descrição: áreas em milhares de milhas quadradas das maiores massas de terra do mundo (maiores que 10000 milhas quadradas). data(islands) Formato: vetor rotulado de comprimento 48. Para mais detalhes vamos usar o help.

  4. help(islands) islands package:base R Documentation Areas of the World's Major Landmasses (áreas das maiores massas de terra do mundo) Descrição: contém as áreas em milhares de milhas quadradas das massas de terra, que excedem à 10000 milhas quadradas. Uso: data(islands) Formato: está num vetor rotulado de comprimento 48. Os rótulos referem-se ao local. Fonte: The World Almanac and Book of Facts, 1975, page 406.

  5. Islands Africa Antarctica Asia Australia 11506 5500 16988 2968 Axel Heiberg Baffin Banks Borneo 16 184 23 280 Britain Celebes Celon Cuba 84 73 25 43 Devon Ellesmere Europe Greenland 21 82 3745 840 Hainan Hispaniola Hokkaido Honshu 13 30 30 89 Iceland Ireland Java Kyushu 40 33 49 14 Luzon Madagascar Melville Mindanao 42 227 16 36 etc.

  6. RAMO-E-FOLHAS DE ISLANDS stem(islands) The decimal point is 3 digit(s) to the right of the | 0 | 00000000000000000000000000000111111222338 2 | 07 4 | 5 6 | 8 8 | 4 10 | 5 12 | 14 | 16 | 0 Observe que por conta das disparidades de valores, o ramo-e-folhas concentra cerca de 85% dos valores no primeiro ramo. Uma alternativa aqui é trabalhar em outra escala.

  7. Mudança de escala dos dados stem(log(islands)) (Logaritmo natural dos dados) 2 | 566666778889 3 | 01234444556778889 4 | 134445 5 | 22467 6 | 7 7 | 8 | 0268 9 | 147

  8. Função stem • stem package:base R Documentação • Stem-and-Leaf Plots (Ramo-e-folhas) • Descrição: 'stem' produz um ramo-e-folhas dos valores no vetor 'x'. • O parâmetro 'scale' pode ser usado para expandir a escala do gráfico. 'scale=2' implicará num ramo-e-folhas duas vezes mais comprido que o default (scale=1). • Usage: stem(x, scale = 1, width = 80, atom = 1e-08)

  9. Argumentos da função stem • x: um vetor numérico. • scale: controla o comprimento do gráfico. • width: largura desejada do gráfico. • atom: uma tolerância (para o comprimento do ramo).

  10. 2 | 2 | 566666778889 3 | 01234444 3 | 556778889 4 | 13444 4 | 5 5 | 224 5 | 67 6 | 6 | 7 7 | 7 | 8 | 02 8 | 68 9 | 14 9 | 7 Ramo-e-folhas stem(log(islands),scale=2)

  11. Ramo-e-folhas stem(log(islands),scale=1/2) 2 | 56666677888901234444556778889 4 | 13444522467 6 | 7 8 | 0268147

  12. Ramo-e-folhas: outras escalas para os dados Construa o ramo-e-folhas dos dados em islands nas escalas: 1) Raiz quadrada de x 2) 1/raiz quadrada de x 3) 1/x 4) 1/x^2

  13. 1) Raiz quadrada: sqrt() stem(sqrt(islands)) 0 | 3444444444445555555566666777789999944577 2 | 9 4 | 4 6 | 14 8 | 27 10 | 7 12 | 0

  14. 2) Inverso da raiz quadrada stem(1/sqrt(islands)) 0 | 11111223 0 | 66777 1 | 1111234 1 | 555567788899 2 | 00123 2 | 55566778889

  15. 3) Inverso 0 | 0000000134455 1 | 122247 2 | 0333458 3 | 0133448 4 | 038 5 | 3 6 | 33377 7 | 11777 8 | 3 stem(1/(islands))

  16. 4) Inverso do quadrado stem(1/(islands^2)) 0 | 000000000000011112345556689 1 | 01122569 2 | 38 3 | 999 4 | 44 5 | 11999 6 | 9

  17. Diagrama de pontos • dotchart package:base R Documentation • Cleveland Dot Plots • Descrição: desenha um gráfico de pontos • Como usar: dotchart(x, labels = NULL, groups = NULL, gdata = NULL, cex = par("cex"), pch = 21, gpch = 21, bg = par("bg"), color = par("fg"), gcolor = par("fg"), lcolor = "gray", xlim = range(x[is.finite(x)]), main = NULL, xlab = NULL, ylab = NULL, ...)

  18. Diagrama de pontos: Exemplos • Começaremos pedindo dotchart(islands), onde islands é um vetor.

  19. Diagrama de pontos: Exemplos

  20. Diagrama de pontos: argumentos • x: pode ser tanto um vetor como uma matriz de valores numéricos ('NA's são permitidos). Se 'x' é uma matriz o gráfico resultante consiste de diagramas de pontos justapostos para cada linha. (Este último caso não será tratado hoje.) • labels: um vetor de rótulos para cada ponto. Para vetores o default é usar ‘names(x)' e para matrizes os rótulos das linhas 'dimnames(x)[[1]]'.

  21. Diagrama de pontos: argumentos (2) • cex: define o tamanho do caracter a ser usado. Atribuir à 'cex' um valor menor do que um pode ser uma forma útil de evitar a sobreposição de rótulos. • pch: caracter ou símbolo a ser usado no diagrama.

  22. dotchart(islands,cex=0.6,pch=“*”)

  23. Diagrama de pontos: argumentos (3) • bg: cor de fundo dos caracteres; para configurar a cor de fundo de todo diagrama. • color: cores para serem usadas para os pontos e rótulos. • lcolor: cores das linhas horizontais. • xlim: amplitude do eixo horizontal. • main: título global. • xlab, ylab: rótulos para os eixos.

  24. dotchart(islands,cex=0.6,pch="2",color="blue",lcolor="red",main="Maiores massas de terra do mundo")

  25. dotchart(log(islands),cex=0.6,pch="2",color="blue",lcolor="red",main="Maiores massas de terra do mundo”,xlab=“log(área em milhas quadradas)”)

  26. Exemplo 2: Notas em Estatística O diagrama de pontos é útil para avaliarmos se há ou parece haver alguma estrutura no processo de observação dos dados. Por exemplo, observou-se as notas em Estatística numa turma de 100 alunos. Os dados estão no arquivo m:\\aed\\dados3bm.txt estat<-scan(“m:\\aed\\dados3bm.txt") dotchart(estat,main="Notas em Estatística",xlab="notas")

  27. Exemplo 2: Notas em Estatística (cont.) É possível verificar, a partir do diagrama de pontos, que as notas distribuem-se ao acaso de 1 a 10, não ocorrendo nenhum padrão aparente no registro das notas.

  28. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezembro de 1985. m:\\aed\\dados5bm.txt Usamos o termo SÉRIE TEMPORAL para nos referirmos a esse tipo de dado. Isso ocorre quando os dados da variável em estudo são coletados ao longo do tempo.

  29. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezembro de 1985. m:\\aed\\dados5bm.txt Vamos visualizar as temperaturas médias em Ubatuba nos anos de 1976 e 1977, que se referem às 24 primeiras observações. dados<-read.table(”m:\\aed\\dados5bm.txt”,header=T) dotchart(dados$Ubatuba[1:24],main=”Temperaturas médias mensais em Ubatuba nos anos de 1976 e 1977”,xlab=”ºC")

  30. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.) É possível observar aqui um certo padrão de comportamento das temperaturas médias que são mais altas no início dos anos, caem até o meio do ano, e depois voltam a subir. Chamamos esse comportamento de sazonal.

  31. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.) A série de temperaturas tem ao todo 120 observações para cada cidade. Um dotchart para essa quantidade de dados não é conveniente. Observe que a dependência sazonal fica mascarada neste gráfico.

  32. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.) Podemos representar simultaneamente as duas séries num único gráfico. No R há a função ts (time series) usada para criar objetos que são séries temporais. Nesse exemplo temos duas séries mensais começando em janeiro de 1976 e terminando em dezembro de 1985. Podemos então definir a série temporal temp na forma: temp<-ts(dados[,2:3],start=c(1976,1),end=c(1985,12),frequency=12)

  33. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.) temp<-ts(dados[,2:3],start=c(1976,1),end=c(1985,12),frequency=12) Informa o tempo de início da série ano=1976,mês=1 Objeto que contém os valores da série, podendo ser um vetor ou uma matriz quando for o caso de mais de uma série. Nesse exemplo temos duas séries Informa o fim da série: ano=1985,mês=12 Informa a freqüência de observação na série (12 -mensal, 4-quadrimestral, 6- semestral etc.)

  34. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.) Com o objeto criado, basta usar a função do R: plot. plot(temp,main="Temperaturas médias mensais",xlab="tempo")

  35. Exemplo 3: Temperaturas médias mensais em Cananéia e Ubatuba (SP) de 1976 a 1985 (cont.)

  36. Confecção de mais de um gráfico numa única janela • Veremos como colocar vários gráficos numa única janela de gráfico. • Suponha que observou-se para 4 amostras de estudantes suas notas em Estatística.

  37. Exemplo 4: • Vamos gerar os dados (fictícios) • amostra 1: 50 estudantes. Notas em n1. • Faça n1<-rnorm(50,5,0.8) • amostra 2:45 estudantes. Notas em n2. • Faça n2<-rnorm(45,5.5,0.9) • amostra 3: 60 estudantes. Notas em n3. • Faça n3<-rnorm(60,6,1.44) • amostra 4: 80 estudantes. Notas em n4. • Faça n4<-rnorm(80,4.5,0.75)

  38. Exemplo 4 (cont.) • A série de comandos que gera os dados está no arquivo geranotas.txt em m:\\aed. • Em vez de digitar a sucessão de comandos a seguir, você pode simplesmente digitar: source(“m:\\aed\\geranotas.txt”) set.seed(589771237) n1<-rnorm(50,4,0.8) n2<-rnorm(45,5.5,1) n3<-rnorm(60,6,1.44) n4<-rnorm(80,5,0.25) n3[52]<-9.9

  39. Exemplo 4 (cont.) • Vejamos separadamente os 4 histogramas resultantes. • N1: hist(n1)

  40. Exemplo 4 (cont.) • N2: hist(n2)

  41. Exemplo 4 (cont.) • N3: hist(n3)

  42. Exemplo 4 (cont.) • N4:hist(n4)

  43. Uniformização das escalas Para construir os 4 histogramas numa única janela vamos primeiramente uniformizar as escalas. Como os dados são notas, podemos começar impondo a cada gráfico o argumento xlim=c(2,10), pois a partir dos histogramas individuais vimos que a menor nota é 2, em todos os casos. O comando que devemos dar antes do primeiro histograma é: par(mfrow=c(2,2)), indicando que queremos os 4 histogramas dispostos em duas linhas e duas colunas. Além disso, use freq=F em cada histograma, pois os totais por amostra são diferentes.

  44. par(mfrow=c(2,2)) hist(n1,xlim=c(2,10),freq=F) hist(n2,xlim=c(2,10),freq=F) hist(n3,xlim=c(2,10),freq=F) hist(n4,xlim=c(2,10),freq=F)

  45. Uniformizando os intervalos... breaks=c(2,3,4,5,6,7,8,9,10)

  46. Uniformizando a escala do eixo das densidades Observe que as escalas das densidades em cada histograma ainda diferem. Inserindo ylim=c(0,0.6) em cada histograma: hist(n1,breaks=c(2,3,4,5,6,7,8,9,10),xlim=c(2,10),freq=F,ylim=c(0,0.6)) hist(n2, breaks=c(2,3,4,5,6,7,8,9,10),xlim=c(2,10),freq=F,ylim=c(0,0.6)) hist(n3, breaks=c(2,3,4,5,6,7,8,9,10),xlim=c(2,10),freq=F,ylim=c(0,0.6)) hist(n4, breaks=c(2,3,4,5,6,7,8,9,10),xlim=c(2,10),freq=F,ylim=c(0,0.6))

  47. Podemos perceber diferenças claras entre essas 4 distribuições: n4 apresenta a maior concentração, todas as notas variam de 4 a 6. n2 e n3 são aproximadamente si- métricas, com n3 mais dispersa que n2 n1 apresenta a pior performance, com as notas altamente concentradas entre 2 e 5. Na próxima aula definiremos e calcularemos medidas que avaliam a dispersão dos dados num conjunto.

More Related