1 / 37

Regressão Linear

Regressão Linear. análise dos pressupostos. Examinando os resíduos. Análise de Resíduos. A análise dos resíduos revela: se a presunção de normalidade da distribuição dos resíduos se confirma;

love
Download Presentation

Regressão Linear

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regressão Linear análise dos pressupostos

  2. Examinando os resíduos

  3. Análise de Resíduos • A análise dos resíduos revela: • se a presunção de normalidade da distribuição dos resíduos se confirma; • pode revelar se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme; • se há ou não uma variável não identificada que deve ser incluída no modelo; • se a ordem em que os dados foram coletados ( p. ex., tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo. • se a presunção de que os resíduos não são correlacionados está satisfeita.

  4. Premissas dos Testes Estatísticos • Premissas em relação aos resíduos: • São aleatórios com distribuição normal ? • São independentes entre si ? • Têm Valor Esperado = 0 ? • Possuem Variância Constante ? • Premissas em relação aos dados: • Modelo linear nos parâmetros

  5. Premissas dos Testes Estatísticos • Os intervalos de confiança e os testes estatísticos só serão válidos se essas premissas forem verdadeiras para os dados que estão sendo analisados • Portanto, é necessário verificar se essas premissas estão presentes antes de analisar a regressão

  6. Checando as premissas pelas ferramentas do Excel • Usar os gráficos: • Plotagem dos Resíduos • Se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa • Plotagem de Probabilidade Normal • Se o gráfico é aproximadamente linear, podemos assumir que os resíduos têm distribuição normal

  7. Testando a adequação do modelo Resíduos Se o gráfico dos resíduos mostra uma tendência sistemática positiva ou negativa significa que uma outra função (não linear) deve ser escolhida. 0 X

  8. Testando a Existência de Variáveis Esquecidas Resíduos Os resíduos não estão aleatoriamente distribuídos em torno de zero 0 Se o gráfico dos resíduos demonstra um padrão quando plotado contra determinada variável, esta variável deve ser incluída no modelo ao lado do X X

  9. Checando Igualdade da Variância dos Resíduos • A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta • Se essa largura aumenta ou diminui quando o valor de x aumenta, a variância não é constante • Este problema é denominado heterocedasticidade • Quando existe heterocedasticidade o método dos mínimos quadrados não pode ser usado para estimar a regressão, devendo ser usado um método mais complexo chamado mínimos quadrados geral.

  10. Checando Heterocedasticidade Resíduos Resíduos 0 0 X X Resíduos parecem aleatórios, sem padrão A variância residual está crescendo

  11. Examinando autocorrelação • m m • • • • • • • • • • 0 0 • • • • x x •

  12. Examinando autocorrelação m m • • • • • • 0 0 • • • • • • • • • • • • • • x x

  13. Examinando autocorrelação m • • • • • • 0 • x • • • • •

  14. Checando as premissas por Testes dos Pressupostos • Testes básicos para validação do modelo de regressão simples • Normalidade dos resíduos • Homocedasticidade • Ausência de autocorrelação dos resíduos • Linearidade dos parâmetros

  15. Normalidade dos resíduos • Os resíduos devem apresentar distribuição normal • Identificação da Normalidade: • Compara-se a distribuição dos resíduos com a curva normal • Testes: • Kolmogorov-Smirnov (não paramétrico) • Jarque-Bera (paramétrico assintótico)

  16. Normalidade dos resíduos • Teste Kolmogorov-Smirnov • H0: distribuição normal • H1: distribuição não é normal • Testa a proximidade ou a diferença entre freqüência observada e esperada. • Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada. • Estatística K-S usa a distribuição D. • D ≤ Dcrítico aceita a Hipótese Nula

  17. Normalidade dos resíduos Teste de Jarque-Bera H0: distribuição normal H1: distribuição não é normal JB ≤ JBcrítico aceita a Hipótese Nula Estatística JB qui-quadrado (א2) (com 2 gl) JB = n . [ A2/6 + (C-3)2/24] onde: A = assimetria C = curtose

  18. Normalidade dos resíduos • Se a distribuição não for normal? • Estimativas não serão eficientes; maior erro padrão • Possíveis causas: • Omissão de variáveis explicativas importantes • Formulação matemática incorreta (forma funcional) • Solução: • Incluir novas variáveis • Formular corretamente a relação funcional

  19. Homocedasticidade

  20. Homocedasticidade • Os resíduos devem apresentar a mesma variância para cada observação de X • Avalia-se o conteúdo informacional dos resíduos • Identificação da homocedasticidade • Analisa-se a evolução da dispersão dos resíduos em torno da sua média, à medida que X aumenta • Examina-se a distribuição dos resíduos para cada observação de X • Testes: Pesarán-Pesarán; BPG; RESET de Ramsey; White; etc.

  21. Homocedasticidade • Teste de Pesarán-Pesarán: • m2 = f (Yc2) • Regride-se o quadrado dos resíduos (m2) como função do quadrado dos valores estimados (Yc2) • Avalia-se o coeficiente de Yc2 • H0: resíduos homocedásticos • H1: resíduos heterocedásticos

  22. Homocedasticidade • Se a distribuição não for homocedástica? • Estimativas não serão eficientes; maior erro padrão • Possíveis causas: • Diferenças entre os dados da amostra • modelo da aprendizagem • discricionariedade no uso da renda • diferenças em dados em corte (cross-section) • erro de especificação

  23. Homocedasticidade • Solução: • Mudar a forma funcional através de transformações das variáveis • Estimar a regressão via mínimos quadrados ponderados

  24. Ausência de autocorrelação • O modelo pressupõe que: • correlação entre os resíduos é zero • o efeito de uma observação é nulo sobre a outra • não há causalidade entre os resíduos e a variável X, e, por conseqüência, a variável Y Identificação da autocorrelação Analisa-se a dispersão dos resíduos em torno da sua média • Teste de Durbin-Watson

  25. Ausência de autocorrelação • Teste de Durbin-Watson • H0: Não existe correlação serial dos resíduos • H1: Existe correlação serial dos resíduos • Estatística DW = S(mx - mx-1)2 / Smx2

  26. Ausência de autocorrelação • Análise da Estatística DW Autocorrelação positiva Região não conclusiva Ausência de Autocorrelação Região não conclusiva Autocorrelação negativa 0 dL dU 4-dU 4-dL 4

  27. Ausência de autocorrelação • Se os resíduos forem correlacionados? • Estimativas não eficientes; maior erro padrão • Possíveis causas: • Em séries temporais • inércia • viés de especificação • falta de variáveis • forma funcional incorreta • defasagem nos efeitos das váriáveis • manuseio dos dados (interpolação / extrapolação)

  28. Ausência de autocorrelação Solução: • Formular corretamente a relação funcional • Tornar a série estacionária

  29. Regressão Linear Múltipla • Extensão do modelo de regressão linear • Valem as hipóteses de • Distribuição Normal dos Resíduos • Homocedasticidade • Ausência de autocorrelação • Linearidade nos parâmetros • Adicionalmente • Ausência de multicolinearidade

  30. Multicolinearidade • Ocorre com duas ou mais variáveis independentes do modelo explicando o mesmo fenômeno • Variáveis contêm informações similares • Exemplo • Explicar preço de uma casa com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos

  31. Multicolinearidade • Duas ou mais variáveis independentes altamente correlacionadas • Dificuldade na separação dos efeitos de cada uma das variáveis • A multicolinearidade tende a distorcer os coeficientes (b) estimados

  32. Multicolinearidade Conseqüências Erros padrão maiores Menor eficiência Estimativas mais imprecisas Estimadores sensíveis a pequenas variações dos dados Dificuldade na separação dos efeitos de cada uma das variáveis

  33. Multicolinearidade • Identificação através dos Testes seguintes • FARRAR & GLAUBER • VIF (VARIANCE INFLATION FACTOR) • TOLERANCE

  34. Multicolinearidade Identificação Teste de Farrar & Glauber c2 crítico com g.l. = k . (k-1) / 2 1 r12 ........r1k c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det r21 1 ........r2k ) rk1 rk2 ........ 1 onde: n = número de observações k = número de variáveis Ln = logaritmo neperiano det = determinante rij = coeficiente de correlação parcial

  35. Multicolinearidade • Teste de aceitação Teste de Farrar & Glauber • H0: Ausência de Multicolinearidade • H1: Existe Multicolinearidade • c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de • multicolinearidade (Há correlação entre as • variáveis)

  36. Multicolinearidade Identificação VIF VIFk = 1 / ( 1 - rk2) Regra de bolso para o VIF até 1 - sem multicolinearidade de 1 até 10 - multicolinearidade aceitável acima de 10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis

  37. Multicolinearidade Identificação Tolerancek = ( 1 - rk2) Regra de bolso para o índice Tolerance até 1 - sem multicolinearidade de 1 até 0,10 - multicolinearidade aceitável abaixo de 0,10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis

More Related