450 likes | 1.03k Views
Regressão Linear. análise dos pressupostos. Examinando os resíduos. Análise de Resíduos. A análise dos resíduos revela: se a presunção de normalidade da distribuição dos resíduos se confirma;
E N D
Regressão Linear análise dos pressupostos
Análise de Resíduos • A análise dos resíduos revela: • se a presunção de normalidade da distribuição dos resíduos se confirma; • pode revelar se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme; • se há ou não uma variável não identificada que deve ser incluída no modelo; • se a ordem em que os dados foram coletados ( p. ex., tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo. • se a presunção de que os resíduos não são correlacionados está satisfeita.
Premissas dos Testes Estatísticos • Premissas em relação aos resíduos: • São aleatórios com distribuição normal ? • São independentes entre si ? • Têm Valor Esperado = 0 ? • Possuem Variância Constante ? • Premissas em relação aos dados: • Modelo linear nos parâmetros
Premissas dos Testes Estatísticos • Os intervalos de confiança e os testes estatísticos só serão válidos se essas premissas forem verdadeiras para os dados que estão sendo analisados • Portanto, é necessário verificar se essas premissas estão presentes antes de analisar a regressão
Checando as premissas pelas ferramentas do Excel • Usar os gráficos: • Plotagem dos Resíduos • Se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa • Plotagem de Probabilidade Normal • Se o gráfico é aproximadamente linear, podemos assumir que os resíduos têm distribuição normal
Testando a adequação do modelo Resíduos Se o gráfico dos resíduos mostra uma tendência sistemática positiva ou negativa significa que uma outra função (não linear) deve ser escolhida. 0 X
Testando a Existência de Variáveis Esquecidas Resíduos Os resíduos não estão aleatoriamente distribuídos em torno de zero 0 Se o gráfico dos resíduos demonstra um padrão quando plotado contra determinada variável, esta variável deve ser incluída no modelo ao lado do X X
Checando Igualdade da Variância dos Resíduos • A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta • Se essa largura aumenta ou diminui quando o valor de x aumenta, a variância não é constante • Este problema é denominado heterocedasticidade • Quando existe heterocedasticidade o método dos mínimos quadrados não pode ser usado para estimar a regressão, devendo ser usado um método mais complexo chamado mínimos quadrados geral.
Checando Heterocedasticidade Resíduos Resíduos 0 0 X X Resíduos parecem aleatórios, sem padrão A variância residual está crescendo
Examinando autocorrelação • m m • • • • • • • • • • 0 0 • • • • x x •
Examinando autocorrelação m m • • • • • • 0 0 • • • • • • • • • • • • • • x x
Examinando autocorrelação m • • • • • • 0 • x • • • • •
Checando as premissas por Testes dos Pressupostos • Testes básicos para validação do modelo de regressão simples • Normalidade dos resíduos • Homocedasticidade • Ausência de autocorrelação dos resíduos • Linearidade dos parâmetros
Normalidade dos resíduos • Os resíduos devem apresentar distribuição normal • Identificação da Normalidade: • Compara-se a distribuição dos resíduos com a curva normal • Testes: • Kolmogorov-Smirnov (não paramétrico) • Jarque-Bera (paramétrico assintótico)
Normalidade dos resíduos • Teste Kolmogorov-Smirnov • H0: distribuição normal • H1: distribuição não é normal • Testa a proximidade ou a diferença entre freqüência observada e esperada. • Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada. • Estatística K-S usa a distribuição D. • D ≤ Dcrítico aceita a Hipótese Nula
Normalidade dos resíduos Teste de Jarque-Bera H0: distribuição normal H1: distribuição não é normal JB ≤ JBcrítico aceita a Hipótese Nula Estatística JB qui-quadrado (א2) (com 2 gl) JB = n . [ A2/6 + (C-3)2/24] onde: A = assimetria C = curtose
Normalidade dos resíduos • Se a distribuição não for normal? • Estimativas não serão eficientes; maior erro padrão • Possíveis causas: • Omissão de variáveis explicativas importantes • Formulação matemática incorreta (forma funcional) • Solução: • Incluir novas variáveis • Formular corretamente a relação funcional
Homocedasticidade • Os resíduos devem apresentar a mesma variância para cada observação de X • Avalia-se o conteúdo informacional dos resíduos • Identificação da homocedasticidade • Analisa-se a evolução da dispersão dos resíduos em torno da sua média, à medida que X aumenta • Examina-se a distribuição dos resíduos para cada observação de X • Testes: Pesarán-Pesarán; BPG; RESET de Ramsey; White; etc.
Homocedasticidade • Teste de Pesarán-Pesarán: • m2 = f (Yc2) • Regride-se o quadrado dos resíduos (m2) como função do quadrado dos valores estimados (Yc2) • Avalia-se o coeficiente de Yc2 • H0: resíduos homocedásticos • H1: resíduos heterocedásticos
Homocedasticidade • Se a distribuição não for homocedástica? • Estimativas não serão eficientes; maior erro padrão • Possíveis causas: • Diferenças entre os dados da amostra • modelo da aprendizagem • discricionariedade no uso da renda • diferenças em dados em corte (cross-section) • erro de especificação
Homocedasticidade • Solução: • Mudar a forma funcional através de transformações das variáveis • Estimar a regressão via mínimos quadrados ponderados
Ausência de autocorrelação • O modelo pressupõe que: • correlação entre os resíduos é zero • o efeito de uma observação é nulo sobre a outra • não há causalidade entre os resíduos e a variável X, e, por conseqüência, a variável Y Identificação da autocorrelação Analisa-se a dispersão dos resíduos em torno da sua média • Teste de Durbin-Watson
Ausência de autocorrelação • Teste de Durbin-Watson • H0: Não existe correlação serial dos resíduos • H1: Existe correlação serial dos resíduos • Estatística DW = S(mx - mx-1)2 / Smx2
Ausência de autocorrelação • Análise da Estatística DW Autocorrelação positiva Região não conclusiva Ausência de Autocorrelação Região não conclusiva Autocorrelação negativa 0 dL dU 4-dU 4-dL 4
Ausência de autocorrelação • Se os resíduos forem correlacionados? • Estimativas não eficientes; maior erro padrão • Possíveis causas: • Em séries temporais • inércia • viés de especificação • falta de variáveis • forma funcional incorreta • defasagem nos efeitos das váriáveis • manuseio dos dados (interpolação / extrapolação)
Ausência de autocorrelação Solução: • Formular corretamente a relação funcional • Tornar a série estacionária
Regressão Linear Múltipla • Extensão do modelo de regressão linear • Valem as hipóteses de • Distribuição Normal dos Resíduos • Homocedasticidade • Ausência de autocorrelação • Linearidade nos parâmetros • Adicionalmente • Ausência de multicolinearidade
Multicolinearidade • Ocorre com duas ou mais variáveis independentes do modelo explicando o mesmo fenômeno • Variáveis contêm informações similares • Exemplo • Explicar preço de uma casa com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos
Multicolinearidade • Duas ou mais variáveis independentes altamente correlacionadas • Dificuldade na separação dos efeitos de cada uma das variáveis • A multicolinearidade tende a distorcer os coeficientes (b) estimados
Multicolinearidade Conseqüências Erros padrão maiores Menor eficiência Estimativas mais imprecisas Estimadores sensíveis a pequenas variações dos dados Dificuldade na separação dos efeitos de cada uma das variáveis
Multicolinearidade • Identificação através dos Testes seguintes • FARRAR & GLAUBER • VIF (VARIANCE INFLATION FACTOR) • TOLERANCE
Multicolinearidade Identificação Teste de Farrar & Glauber c2 crítico com g.l. = k . (k-1) / 2 1 r12 ........r1k c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det r21 1 ........r2k ) rk1 rk2 ........ 1 onde: n = número de observações k = número de variáveis Ln = logaritmo neperiano det = determinante rij = coeficiente de correlação parcial
Multicolinearidade • Teste de aceitação Teste de Farrar & Glauber • H0: Ausência de Multicolinearidade • H1: Existe Multicolinearidade • c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de • multicolinearidade (Há correlação entre as • variáveis)
Multicolinearidade Identificação VIF VIFk = 1 / ( 1 - rk2) Regra de bolso para o VIF até 1 - sem multicolinearidade de 1 até 10 - multicolinearidade aceitável acima de 10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis
Multicolinearidade Identificação Tolerancek = ( 1 - rk2) Regra de bolso para o índice Tolerance até 1 - sem multicolinearidade de 1 até 0,10 - multicolinearidade aceitável abaixo de 0,10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis