430 likes | 543 Views
Análise Exploratória de Dados. Box - Plot. Exercício: Emissão de Dióxido de Carbono. Determine os três quartis , os decis , a média e o desvio-padrão das emissões registradas para os 72 países em 1995. Exercício: Emissão de Dióxido de Carbono.
E N D
Análise Exploratória de Dados Box - Plot
Exercício: Emissão de Dióxido de Carbono • Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
Exercício: Emissão de Dióxido de Carbono • dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T) • names(dados) [1] "pais" "emissao" • quantile(dados$emissao,c(0.25,0.5,0.75)) • 25% 50% 75% 0.0675 0.4150 1.4725 • quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) • 10% 20% 30% 40% 50% 60% 70% 80% 90%0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02
Exercício: Emissão de Dióxido de Carbono • > mean(dados$emissao) • [1] 1.174167 • > sd(dados$emissao) • [1] 1.689093 • A mediana é 0.4150 e portanto, o coeficiente de assimetria de Pearson, dado por (3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.
Dados em histograma das emissões Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma. $breaks [1] 0 1 2 3 4 5 6 7 8 9 $counts [1] 46 12 6 3 2 1 0 1 1 $mids [1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 round(histEmissao$counts/72,digits=2) # freqüências relativas [1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01 # freqüências relativas acumuladas 0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00
Esquema dos cinco números • É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n). • Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.
Esquema dos cinco números • Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x(1) x(n)-Q2; (b) Q2-Q1 Q3-Q2; (c) Q1- x(1) x(n)-Q3; (d) distâncias entre mediana e Q1, Q3 menores do que distâncias entre os extremos e Q1, Q3.
Comandos summary() e fivenum() • O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. • Exemplo: • x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) • fivenum(x) [1] 1.0 2.0 3.5 5.5 10.0
Comandos summary() e fivenum() • summary(x) • Min. 1st Qu. MedianMean 3rd Qu. Max. 1.00 2.00 3.50 4.10 5.25 10.00 • O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.
Desenho Esquemático (Box Plots) • A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como boxplot. • A figura a seguir, ilustra o boxplot.
Boxplot • O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. • O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. • Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.
Cosntruindo o boxplot • Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. • O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.
Fechando o boxplot • As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. • Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.
Observações • Não necessariamente haverá a presença de pontos exteriores num boxplot. • Quando for este o caso, o esquema terá a seguinte aparência:
A função boxplot no R • Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)
Alguns argumentos da função boxplot • Observação: é possível construir vários boxplot na mesma função. • boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. • outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados
Exemplo 1 • Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. • dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T) • Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. • boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivelmedio”,”mecanico”,”administrador”,”eng.eletrico”))
Cores col - cor de preenchimento dos retângulos
Boxplots horizontais • horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.
Outros argumentos • ylim: controla a escala de valores • main: título • sub: sub-título • names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. • pch: específica o caracter a ser usado nos pontos exteriores. Ex.:pch=“*”.
Exemplo 2 • No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004. • Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.
Exemplo 2 • Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. • Os nomes atribuídos às variáveis foram: cidade, partido, hab1000 e invest1000.
Exemplo 2 • dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) • Construa o boxplot dos investimentos.
Olhando apenas para a relação investimento sobre número de habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?
O título da reportagem no jornal foi Aos amigos, mais da metade. Você concorda com este título? Por que? Ordenando os dados por partido: indice<-order(dados$partido) dadosord<-dados[indice,]
Depois de ordenar os dados por partido em dadosord, é possível ver que de 1 a 17 tem-se outros partidos e de 18 a 25 tem-se o PT.
resumo<-matrix(0,2) #variável que vai receber o total # de investimentos, na posição 1: outros partidos # na posição 2: PT resumo[1]<-sum(dadosord$invest1000[1:17]) resumo[2]<-sum(dadosord$invest1000[18:25]) total<-resumo[1]+resumo[2] parcial<-matrix(0,2) parcial<-resumo/total
Resultado parcial [1] 0.4077745 0.5922255
Exemplo 3 Voltemos aos dados sobre temperaturas médias mensais. Lembre-se da última atividade sugerida na aula 5 do LIG. Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.