530 likes | 634 Views
Regressão Linear Simples. Objetivos. Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para avaliar possíveis relações entre as duas variáveis; calcular o coeficiente de correlação entre as duas variáveis;
E N D
Objetivos • Análise de duas variáveis quantitativas: • traçar diagramas de dispersão, para avaliar possíveis relações entre as duas variáveis; • calcular o coeficiente de correlação entre as duas variáveis; • obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados.
DIAGRAMAS DE DISPERSÃO E CORRELAÇÃO • DADOS: Começaremos a aula de hoje trabalhando com dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras (exercício 11 do capítulo 4).
DADOS: Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977. volta
PROBLEMA • Será que existe alguma relação entre as variáveis porcentagem da população economicamente ativa no setor primário e índice de analfabetismo? • Em caso afirmativo, como quantificar esta relação?
Diagrama de dispersão • Vejamos como obter o diagrama de dispersão destes dados usando o R. • Primeiro, vamos ler os dados: • dados<-read.table(“m:\\natalie\\aed\\analfab.txt”) • names(dados)<-c(“RM”,”SP”,”AN”) #comando que fornece nomes para as variáveis
DIAGRAMA DE DISPERSÃO • plot(dados$SP, dados$AN, xlab="Porc. da PEA no Setor Primario", ylab="Indice de Analfabetismo", main= "Diagrama de Dispersao”,col=“blue”)
Análise dos dados • Você diria que há dependência linear entre estas variáveis? • Calcule a correlação entre elas. • cor(dados$SP,dados$AN) • 0.866561 (0.867)
CORRELAÇÃO • Há alguma região com comportamento diferente das demais? • Em caso afirmativo, retire-a da base de dados e recalcule a correlação. dados
Porto Alegre • Retirando os dados da região metropolitana de Porto Alegre temos a seguinte correlação: (observe que Porto Alegre está na linha 6 da base de dados). • dad<-matrix(0,7,2) • dad[,1]<-c(dados[1:5,2],dados[7:8,2]) • dad[,2]<-c(dados[1:5,3],dados[7:8,3]) • cor(dad[,1],dad[,2]) • 0.9081915 (0.908) • porcentagem de variação em relação à correlação inicial: 4,8% (em valor absoluto)
A porcentagem de variação foi calculada da seguinte forma: r é a correlação calculada com base em todas as observações r(i) é a correlação calculada retirando-se a i-ésima observação.
Fortaleza • dad[,1]<-c(dados[1:7,2]) • dad[,2]<-c(dados[1:7,3]) • cor(dad[,1],dad[,2]) • 0.8581972 (0.858) • porcentagem de variação em relação à correlação inicial: 0,96% (em valor absoluto)
Recife • dad[,2]<-c(dados[1:6,3],dados[8,3]) • dad[,1]<-c(dados[1:6,2],dados[8,2]) • cor(dad[,1],dad[,2]) • 0.9158657 (0.916) • porcentagem de variação em relação à correlação inicial: 5,7% (em valor absoluto)
Salvador • dad[,1]<-c(dados[1:4,2],dados[6:8,2]) • dad[,2]<-c(dados[1:4,3],dados[6:8,3]) • cor(dad[,1],dad[,2]) • 0.8822678 (0.882) • porcentagem de variação em relação à correlação inicial: 1,8% (em valor absoluto)
Resumo RM retirada variação % Porto Alegre 4,8 Fortaleza 0,96 Salvador 1,8 Recife 5,7
Comentários • As regiões metropolitanas que mais influenciaram no valor da correlação foram Porto Alegre e Recife. • Porto Alegre tem um comportamento diferente, pois sua taxa de analfabetismo é pequena comparada a sua PEA e as demais regiões.
Comentários • Recife, ao contrário, tem uma taxa de analfabetismo alta demais comparada a sua PEA e as demais regiões. • Fortaleza, apesar de ser um ponto afastado dos demais, mantém o padrão da maior parte dos pontos.
Cuidados na interpretação • Uma correlação alta (próxima de 1 ou -1) pode indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma reta. • Pode haver variáveis cuja correlação é próxima de 1 (ou -1), mas, na verdade, não são diretamente relacionadas. (correlação espúria) • Uma correlação zero ou próxima de zero indica ausência de linearidade, podendo significar ausência de relação entre as variáveis ou outro tipo de dependência entre elas.
dados<-read.table(“m:\\natalie\\aed\\relquadratica.txt",header=T)dados<-read.table(“m:\\natalie\\aed\\relquadratica.txt",header=T) cor(dados$x,dados$y) 0 Exemplo Observe que existe relação de dependência entre x e y, porém essa. relação NÃO é linear.
Correlação: Cuidados na interpretação • Uma correlação amostral entre duas variáveis próxima de 1 ou -1 pode só indicar que as variáveis crescem no mesmo sentido (ou em sentidos contrários), e não que, aumentos sucessivos em uma, acarretarão aumentos sucessivos (ou diminuições sucessivas) na outra.
Reta de mínimos quadrados • Quando as variáveis em análise são altamente correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de mínimos quadrados). • Em geral, uma das variáveis é considerada como variável que pode ser controlada de alguma forma variável explicativa (independente - preditora) e a outra, sobre a qual deseja-se fazer previsões, é chamada variável resposta (dependente).
EXEMPLO 2: • Fonte:http://lib.stat.cmu.edu/DASL/ • Trabalharemos com uma base de dados sobre o hábito de fumar e mortalidade por câncer de pulmão.
Exemplo 2 (cont.) • Descrição: Os dados sumariam um estudo entre homens distribuídos em 25 grupos classificados por tipo de ocupação na Inglaterra. • Dois índices são apresentados para cada grupo.
Exemplo 2: variáveis • índice de fumo:razão do número médio de cigarros fumados por dia por homem no particular grupo de ocupação sobre a média global de cigarros fumados por dia, calculada levando-se em conta todos os homens. (média do grupo sobre média global) • índice de mortalidade: razão da taxa de mortes causadas por câncer de pulmão entre os homens de um particular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre taxa global) • Número de observações: 25
Fumo versus câncer • Nomes das variáveis: • 1. Grupo de ocupação: grupo • 2. Índice de fumo: ifumo (100 = base) • ifumo=100: número médio de cigarros por dia para o grupo é igual ao número médio global de cigarros fumados por dia. • ifumo>100 indica grupo que fuma em média mais que o geral; • ifumo<100, grupo que fuma em média menos que o geral.
Fumo versus câncer • 3. Índice de Mortalidade: imorte (100 = base) • imorte=100, número médio de mortes por câncer de pulmão para o grupo é igual ao número médio global de mortes por câncer de pulmão. • imorte>100 indica grupo com incidência de mortes por câncer de pulmão maior que o geral; • imorte<100, incidência menor que o geral. • arquivo: fumo.txt no diretório m:\\natalie\\aed
Fumo versus câncer • Analise estes dados avaliando se há relação entre estes índices. • Construa o diagrama de dispersão e calcule a correlação.
abline Para inserir as retas tracejadas em x=100 e em y=100 após ter construído o diagrama, use os comandos: abline(h=100,lty=2) abline(v=100,lty=2)
Indice de fumo versus mortalidade por câncer de pulmão A partir do diagrama de dispersão é possível perceber claramente uma correlação positiva entre as duas variáveis em análise. cor(dados$ifumo,dados$imorte) [1] 0.7162398 No contexto deste exemplo faz sentido prever o índice de mortalidade por câncer de pulmão num particular grupo, dado o índice de fumo do grupo.
Reta de mínimos quadrados • O comando no R que calcula os coeficientes da reta de mínimos quadrados é lm(...), de linear model. • No caso específico deste exemplo podemos pedir reta<-lm(dados$imorte~dados$ifumo)
Reta de mínimos quadrados • Obtém-se Coefficients: (Intercept) dados$ifumo -2.885 1.088 É o coeficiente angular da reta de mínimos quadrados É o coeficiente linear da reta de mínimos quadrados Modelo ajustado: Indice de morte=-2.885+1.088x(indice de fumo)
Gráfico da reta obtida Para inserir o gráfico da reta obtida no ajuste de mínimos quadrados no diagrama de dispersão dos pontos, basta, após obter o diagrama de dispersão, pedir abline(reta$coefficients)
points Para inserir o ponto médio no gráfico use o comando: points(mean(dados$ifumo),mean(dados$imorte), pch=“*”,col=“red”,cex=2)
Comentários • Depois de proposto um modelo é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. • Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.
Valores ajustados • Após ajustar a reta, usando a função lm várias informações ficam disponíveis, entre elas os valores ajustados da variável resposta pela reta obtida. • reta$fitted (#usando reta<-lm(dados$imorte~dados$ifumo fornece os valores ajustados)
Resíduos O resíduo do modelo é definido pela diferença entre O valor observado da variável resposta e o valor Ajustado pelo modelo. Resíduos da reta de mínimos quadrados: reta$residuals round(reta$residuals,digits=2) 1 2 3 4 5 6 7 8 9 10 11 3.15 -30.11 -1.36 28.66 31.73 -7.04 0.17 14.74 11.18 -20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78 -27.48 -22.92 23.99 22.26 -20.06 4.24 5.82 3.69 -12.73 -11.08 23 24 25 14.13 -19.77 -17.89
Análise dos resíduos Ramo-e-folhas dos resíduos: > stem(round(reta$residuals,digits=2)) -2 | 073000 -0 | 83171 0 | 0344681459 2 | 2492 Também avaliamos o histograma, e o gráfico dos resíduos versus os valores ajustados.
Valores ajustados Valores ajustados da reta de mínimos quadrados: reta$fitted round(reta$fitted,digits=2) 80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89
Critério de mínimos quadrados • Como são obtidos os coeficientes da reta de mínimos quadrados? Nossos dados podem ser pensados como uma coleção bivariada: Foi considerado adequado o modelo para explicar .