280 likes | 788 Views
Correlação e Regressão Linear Simples. Análise de duas variáveis quantitativas traçar diagramas de dispersão, para avaliar possíveis relações entre as duas variáveis; calcular o coeficiente de correlação entre as duas variáveis;
E N D
Análise de duas variáveis quantitativas • traçar diagramas de dispersão, para avaliar possíveis relações entre as duas variáveis; • calcular o coeficiente de correlação entre as duas variáveis; • obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados.
Exemplo Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977.
Problemas • Será que existe alguma relação entre as variáveis porcentagem da população economicamente ativa no setor primário e índice de analfabetismo? • Em caso afirmativo, como quantificar esta relação?
Análise dos Dados • Você diria que há dependência linear entre estas variáveis? • Correlação: 0.866561 • Retirando os dados da região metropolitana de Porto Alegre temos a seguinte correlação: 0.9081915 • A porcentagem de variação em relação à correlação inicial foi 4,8%.
Interpretação da Correlação • Uma correlação alta (próxima de 1 ou -1) pode indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma reta. • Pode haver variáveis cuja correlação é próxima de 1 (ou -1), mas, na verdade, não são diretamente relacionadas (correlação espúria). • Uma correlação zero ou próxima de zero indica ausência de linearidade, podendo significar ausência de relação entre as variáveis ou outro tipo de dependência entre elas. Cuidado! Uma correlação alta pode só indicar que as variáveis crescem no mesmo sentido (ou em sentidos contrários), e não que aumentos sucessivos em uma acarretarão aumentos sucessivos (ou diminuições sucessivas) na outra.
Reta de mínimos quadrados • Quando as variáveis em análise são altamente correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de mínimos quadrados). • Em geral, uma das variáveis é considerada como variável que pode ser controlada de alguma forma - variável explicativa, independente ou preditora - e a outra, sobre a qual deseja-se fazer previsões, é chamada variável resposta ou dependente. • Modelo: • O resíduo do modelo é definido pela diferença entre o valor observado da variável resposta e o valor ajustado pelo modelo.
valor observado valor ajustado pelo modelo Reta de mínimos quadrados • Critério de Mínimos quadrados: Escolha e de tal maneira que seja minimizada a soma de quadrados dos resíduos:
Coeficiente angular da reta Coeficiente linear da reta (intercepto) Reta de mínimos quadrados • Solução:
Reta de mínimos quadrados • Ainda:
Reta de mínimos quadrados • Após ajustar a reta, várias informações ficam disponíveis, entre elas os valores ajustados da variável resposta pela reta obtida e os resíduos. • Depois de proposto um modelo é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. • Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.
Exemplo Idade (em meses) altura (em cm) 18 76.1 19 77.0 20 78.1 21 78.2 22 78.8 23 79.7 24 79.9 25 81.1 26 81.2 27 81.8 28 82.8 29 83.5
Correlação: 0.994366 Modelo ajustado: altura=64.928+0.635xidade
Comentários • Deve-se tomar cuidado com previsões fora do campo de variação da variável explicativa. • Quanto mais distante estiver o valor da variável explicativa do conjunto de valores efetivamente observado, mais imprecisa será a previsão. • Nada garante que fora deste intervalo, a relação linear obtida continue valendo. • O caso deste exemplo é típico: a altura média pode crescer linearmente com a idade em meses nos primeiros anos de vida, mas a curva de altura de uma pessoa certamente não é linear ao longo de sua vida! • Quando falamos em modelos, uma das coisas que se deve ter em mente é a abrangência deles.
Comentários • Depois de ajustado um modelo, é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. • Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões. • O diagrama de pontos dos resíduos NÃO deve apresentar nenhuma estrutura aparente. • Caso o diagrama de pontos apresente alguma estrutura, é sinal de que o modelo proposto para os dados ainda não está suficientemente adequado e deve ser reformulado. • Outro gráfico que também não deve apresentar nenhuma estrutura é o diagrama de dispersão dos valores ajustados versus os resíduos do modelo.