530 likes | 646 Views
Análise Exploratória de Dados. Objetivos. Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.
E N D
Objetivos • Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis. • Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).
Gráfico quantis x quantis Suponha dados os valores da variável X e valores da variável Y, todos medidos pela mesma unidade. Por exemplo, notas parciais de uma disciplina, ou temperaturas de duas cidades, ou porcenta- gens da renda familiar gastas com saúde e educação.
Gráfico quantis x quantis (1) • O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y. • Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y. • Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a retay=x.
Gráfico quantis x quantis (2) • Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxqmostra se valores pequenos de X estão relacionados com valores pequenos de Y, • se valores intermediários de X estão relacionados com valores intermediários de Y, • se valores grandes de X estão relacionados com valores grandes de Y.
Gráfico quantis x quantis (3) • Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 . • Num gráfico qxq,não é possível ter x1< x2e y1 >y2 ,pois os valores em ambos os eixos estão ordenados, do menor para o maior.
Exemplo 1 • Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística. aluno P1 P2 1 8.5 8.0 2 3.5 2.8 3 7.2 6.5 4 5.5 6.2 5 9.5 9.0 6 7.0 7.5 7 4.8 5.2 8 6.6 7.2 9 2.5 4.0 10 7.0 6.8 11 7.4 6.5 12 5.6 5.0 13 6.3 6.5 14 3.0 3.0 15 8.1 9.0 16 3.8 4.0 17 6.8 5.5 18 10.0 10.0 19 4.5 5.5 20 5.9 5.0 Estes dados estão arquivados em notasEst.txt.
Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados: qqplot(dados$P1,dados$P2,main=“ Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”, ylab=“Quantis da segunda prova”) Para inserir no gráfico a reta y=x, acrescente abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.
Exemplo 1: (cont.) • Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=xcom desvios bem pequenos.
Exemplo 2: • Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt. • Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.
Exemplo 2: (cont.) • Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. • Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos. • O R aceita vetores de tamanhos diferentes para o qqplot.
Qqplot quando mn • Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y. • Exemplo: Suponha n=40 e m=20.
Qqplot quando mn (1) Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.
Qqplot quando mn (2) Mais geralmente, quando n>m correspondemos os quantis y(i) aos quantis de X: onde Se j for inteiro, fazemos o gráfico de y(i) versus x(j). Caso contrário, se j=k+r, onde k é inteiro e 0<r<1, fazemos o gráfico de y(i) versus x*(j) onde
Exercício 34 do livro Faça o gráficoqxq para os dois conjuntos A e B abaixo: A 65 54 49 60 70 25 87 100 70 102 40 47 B 48 35 45 50 52 20 72 102 46 82 cálculos Observe que neste caso n=12 e m=10 Quantis de X
Exemplo 3: • Dados: salários em dados6bm.txt. • Faça o gráfico qxqda variável salário de professor secundário contra salário de administrador. • A variável nivelmedio da base representa os salários do professor de ensino médio. • Faça comentários sobre a forma do gráfico obtido.
Comentário • É possível perceber claramente, pelo gráfico qxqque os salários de professores do nível médio são menores do que os salários dos administradores.
Exemplo C1: Duas variáveis quantitativas • Dados: mercado em dados9bm.txt • Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações. • Construa o diagrama de dispersão destes dados.
Comentários • A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis. • Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.
Correlação • cor(dados$indice,dados$telebras) • [1] 0.9818552
Reta de mínimos quadrados • Coefficients: • (Intercept) dados$indice • -3.7588 0.8808 • Modelo: Preco_Telebras=-3.7588+0.8808x(IBOVESPA)
Exemplo C2: • Dados sobre veículos em dados7bm.txt. • Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado. • Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.
Exemplo C2: (cont.) • Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado). • dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T) • indice<-order(dados$origem) • table(dados$origem) • dadosord<-dados[indice,]
Exemplo C2: (cont.) • I N • 12 18 • Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.
Exemplo C2: (cont.) • plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5)) • points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")
Origem versus outras variáveis • Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento. • Há algum par de variáveis apresentando associação? • Construa os boxplots por origem e da distribuição global. • Calcule o R2.
> aov(dados$preco~dados$origem) Call: aov(formula = dados$preco ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 514601743 1648021011 Deg. of Freedom 1 28 Residual standard error: 7671.89 514601743/(514601743+1648021011) [1] 0.2379526 R.: Cerca de 24% da variação total de preço é explicada pela origem do veículo (nacional ou importado).
> aov(dados$comprimento~dados$origem) Call: aov(formula = dados$comprimento ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 0.159609 3.750911 Deg. of Freedom 1 28 Residual standard error: 0.366007 > 0.159609/(0.159609+3.750911) [1] 0.04081529 R.: A origem explica apenas cerca de 4% da variação total devida ao comprimento.
> aov(dados$motor~dados$origem) Call: aov(formula = dados$motor ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 164.356 21328.444 Deg. of Freedom 1 28 Residual standard error: 27.59946 > 164.356/(164.356+21328.444) [1] 0.007647026 R.: A origem explica apenas 0,7% da variação total de motor.
Comentário • Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados. • A origem explica cerca de 24% da variação total de preço.
Exemplo C3 (Tabela de contingência) • Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986 • Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas. • Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.