650 likes | 889 Views
Análise Exploratória de Dados . R - LIG -07. Objetivos. Definir e construir gráficos de quantis . Trabalhar com transformações de variáveis buscando “ simetrizar ” os dados. Definir medidas de assimetria e curtose. Gráficos de quantis.
E N D
Análise Exploratória de Dados R - LIG -07
Objetivos • Definir e construir gráficos de quantis. • Trabalhar com transformações de variáveis buscando “simetrizar” os dados. • Definir medidas de assimetria e curtose.
Gráficos de quantis • É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis. • No eixo das abscissas, colocamos os valores de p e no eixo das ordenadas os valores de q(p). • Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p.
Gráficos de quantis: exemplo • Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt. • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados2bm.txt”,header=T) • Defina o vetor de valores de p da seguinte forma: • prop<-c(0:10) • prop<-prop/10
Gráficos de quantis: exemplo • Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações: • quantis<-quantile(dados$pop10mil,prop) • Finalmente, trace o gráfico usando a função plot: • plot(prop,quantis,main=“Gráfico de quantis dos dados sobre população”,sub=“30 maiores municípios brasileiros”)
Para que os pontos sejam unidos por segmentos, insira o argumento type=“l”na função plot.
Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=“b”na função plot.
Gráficos de quantis (cont.) • O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). • Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam-se como os pontos do canto inferior esquerdo.
Gráficos de quantis (cont.) • Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo. • No exemplo anterior, claramente percebemos uma assimetria positiva.
Gráficos de quantis: exemplo • Vejamos um exemplo com dados aproximadamente simétricos. • source(“m:\\aulas\\natalie\\aed\\exemplo2a7.txt”) volta
Gráficos de quantis: exemplo • Vejamos um exemplo de conjunto de dados com assimetria negativa. • source(“m:\\aulas\\natalie\\aed\\exemplo3a7.txt”) volta
Exercício 1 • Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono. volta
Transformações • Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica.
Transformações • Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos.
Transformações (cont.) • Existem métodos estatísticos que são desenvolvidos para dados não normais. • Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter este tipo de comportamento, o que se pode fazer é uma transformação destes dados visando a simetrização.
Transformações (cont.) • Uma família de transformações freqüentemente explorada é Normalmente, o que se faz é experimentar valores de p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4, 1/3,1/2,1,2,3,...
Transformações (cont.) • Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado. • Para dados positivos, a distribuição é geralmente assimétrica à direita.
Transformações (cont.) • Para essas distribuições, a transformação sugerida com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente, a valores pequenos. • Para distribuições assimétricas à esquerda, experimente valores de p maiores que 1.
Dados sobre emissão de dióxido de carbono • Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita. • Proponha uma transformação que torne os dados aproximadamente simétricos.
Continuação do exemplo Pela sugestão anterior, devemos buscar um valor de p que esteja entre 0 e 1. Aqui, teríamos problema com a transformação logarítmica, pois há uma observação com emissão 0. Na figura a seguir, foi solicitado um boxplot para valores de p que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.
Continuação do exemplo • É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica. • Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.
Exercício 2 • Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados.
Exercício 2 (conclusão) • Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica. • Isto pode ser confirmado pelo boxplot e pelo histograma das notas.
Exercício 3 • Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt). • Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica.
Exercicio 3(cont.) • Construindo o boxplot de densidade demográfica,percebe-se, claramente, forte assimetria positiva.
Transformações • Como os dados são todos positivos, podemos começar tentando a transformação logarítmica. • boxplot(log(dados$dd))
Outras transformações Podemos então tentar valores de p entre 0 e 1.
Continuação • É possível verificar que a assimetria na caixa é acentuada e aparece em todas as tentativas. • Uma saída (exploratória) é escolher a transformação na qual a caixa é o menos assimétrica possível.
Continuação • Por exemplo, a transformação f que minimiza • O problema com a proposta anterior é que corremos o risco de encontrar a melhor transformação para os dados centrais, mas encontrar forte assimetria nas caudas. • Enfim, nem sempre existirá uma transformação ideal para os nossos dados!
Exercício 4 • Trabalhe com a base de dados sobre veículos. • Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria. • Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização.
Leitura e organização dos dados • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados7bm.txt”,header=T)
Continuação • É possível verificar que a maior assimetria ocorre na distribuição da variável preço. • Além disso, que a assimetria é positiva. • Tente a transformação logarítmica, pois os preços são todos positivos.
Exercício 5 • Considere a variável CO (gás carbônico nos dados sobre poluição (dados4bm.txt). • Calcule as principais medidas de posição e dispersão. • Construa um histograma, ramo-e-folhas e boxplot. • Comente sobre a forma da distribuição desta variável.
dados<-read.table(”m:\\auulas\\natalie\\aed\\ dados4bm.txt",header=T) names(dados) [1] "data" "CO" "O3" "temp" "umid" summary(dados$CO) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.700 6.300 7.200 7.464 8.025 12.500 sd(dados$CO) [1] 1.543912 range(dados$CO) [1] 4.7 12.5 IQR(dados$CO) [1] 1.725
4 | 77 5 | 12 5 | 55677789 6 | 1111122222222233333444444 6 | 5666677777899999999 7 | 00122233444 7 | 5566777778888899999999 8 | 012334 8 | 55678999 9 | 0114 9 | 557 10 | 1333 10 | 8 11 | 4 11 | 69 12 | 0 12 | 5 Ramo-e-folhas