1 / 42

Análise de Regressão Múltipla

Análise de Regressão Múltipla. y = b 0 + b 1 x 1 + b 2 x 2 + . . . b k x k + u Inferência. Hipóteses do Modelo Linear Clássico (MLC). Dadas as hipóteses de Gass-Markov, o estimador de MQO é “BLUE”.

ina
Download Presentation

Análise de Regressão Múltipla

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise de Regressão Múltipla y = b0 + b1x1 + b2x2 + . . . bkxk + u Inferência Letícia e Idilio

  2. Hipóteses do Modelo Linear Clássico (MLC) • Dadas as hipóteses de Gass-Markov, o estimador de MQO é “BLUE”. • Afim de aplicar os testes de hipóteses clássicos, uma nova hipótese é adicionada ao modelo (além das suposições de Gauss-Markov): • Assumir que u é independente de x1, x2,…, xk e u segue distribuição normal com média igual a 0 e variância s2. Ou seja, u ~ Normal(0,s2).

  3. Hipóteses do MLC (cont.) • Considerando as hipóteses do MLC, o estimador de MQO não somente é “BLUE”, como também o estimador não-viesado de menor variância. • As hipóteses do MLC podem ser resumidas por: y|x ~ Normal(b0 + b1x1 +…+ bkxk, s2). • Há casos em que a hipótese de “normalidade” não é verdadeira (neste momento, não serão considerados).

  4. Exemplo de normal homoscedástica com uma variável independente. y f(y|x) . E(y|x) = b0 + b1x . Normais x1 x2

  5. Distribuições amostrais Normais

  6. Testes de Hipóteses sobre um único parâmetro: Teste t • Lembrando, modelo populacional pode ser escrito como: y =b0 + b1x1 +…+ bkxk + u • A idéia é construir hipóteses sobre o valor de bj • Utilizar inferência estatística para testar nossa hipótese.

  7. O Teste t

  8. O Teste t (cont.) • Saber essa distribuição amostral do estimador padrão permite que sejam feitos testes de hipóteses que envolvem bj. • Começar pela hipótese nula, que é a mais utilizada. H0: bj=0. • Dizer que bj=0 significa que xj não tem efeito em y, controlando os demais x’s.

  9. O Teste t (cont.) • Ex: log(salarioh)= b0 + b1 educ + b2 exper + b3 perm + u A hipótese nula H0: b2 =0 significa que, se a educação formal e a permanência foram consideradas, o número de anos no mercado de trabalho (exper) não tem nenhum efeito sobre o salário.

  10. Teste t: Hipóteses alternativas • Além da hipótese nula H0, é necessária uma hipótese alternativa H1 e um nível de significância. • H1 pode ser unilateral ou bilateral. • H1: bj > 0 e H1: bj < 0 são unilaterais. • H1: bj 0 é a alternativa bilateral.

  11. Escolha do nível de significância • Nível de significância: probabilidade de rejeitar erroneamente Ho quando ela é verdadeira. • Se o desejável é ter somente 5% de probabilidade de rejeitar H0 quando ela for verdadeira, então é dito que o nível de significância é de 5%.

  12. A estatística t • Para determinar se uma hipótese nula H0 deve ser rejeitada usaremos regras de rejeição junto com a estatística t.

  13. Alternativas unilaterais • Por exemplo, escolhendo um nível de significância 5%, procura-se pelo 95º percentil em uma distribuição t com n – k – 1 graus de liberdade. Este valor é chamado de c (valor crítico). • Se t > c => a hipótese nula será rejeitada. • Se t < c => não é possível rejeitar a hipótese nula.

  14. Alternativas unilaterais (cont.) yi = b0 + b1xi1 + … + bkxik + ui H0: bj = 0 H1: bj > 0 Não-rejeitada Rejeitada (1 - a) a c 0

  15. Exemplo: Retomando o exemplo do salário: log(salarioh)= b0 + b1 educ + b2 exper + b3 perm + u log(salarioh)=0,284 +0,092 educ +0,0041exper +0,022perm n=526 (0,104) (0,007) (0,0017) (0,003) Ho: b2=0 H1: b2>0 gl: 526-4=522 nível de significância: 1% => c=2,326 t = 0,0041/ 0,0017 =2,41 > 2,326 Logo, exper é estatisticamente significante ao nível de 1%, rejeitamos então H0.

  16. Unilateral X bilateral • Sendo a distribuição t simétrica, testar H1: bj < 0 é trivial. O valor crítico é o negativo do valor anterior. Rejeita-se a hipótese nula se o valor da estatística t < –c. • Para o caso bilateral, o valor crítico será a/2 e rejeita-se H0: bj = 0 (em favor de H1: bj≠ 0) se |t| >c.

  17. Alternativa Bilateral yi = b0 + b1Xi1 + … + bkXik + ui H0: bj = 0 H1: bj≠ 0 Não-rejeitada Rejeitada Rejeitada (1 - a) a/2 a/2 -c c 0

  18. Testando outras hipóteses • Uma forma mais geral da estatística t pode ser escrita para verificar hipóteses do tipo H0: bj = aj • Neste caso, a seguinte estatística t deve ser usada: • Exemplo 4.5...

  19. Calculando os “p-valores”para testes t • Uma alternativa à abordagem clássica é perguntar: “qual o menor nível de significância no qual a hipótese nula pode ser rejeitada?” • Para isto, calcule o valor da estatística t e procure em qual percentil ele se encontra em uma tabela com a distribuição t apropriada. Este será o “p-valor”. • O “p-valor” é a probabilidade de observar-se o valor da estatística t, se a hipótese nula for verdadeira.

  20. Calculando os “p-valores”para testes t

  21. Significância x Importância • Significância x Importância • Normalmente, cria-se a hipótese antes de conhecer os dados. • No caso de amostras pequenas, o erro tende a ser maior (mais difícil de rejeitar H0). Nestes casos é normal aumentar o nível de significância.

  22. Intervalos de confiança • Outra forma de utilizar os testes clássicos da estatística é construir um intervalo de confiança usando o mesmo valor crítico do teste bilateral. • Um intervalo de confiança de (1 - a)% pode ser definido como:

  23. Intervalos de confiança • Interpretação: • Se criarmos intervalos de confiança em várias amostrar aleatórias, o valor real de bjestará contido no intervalo em (1 - a)% dos intervalos criados. • Por azar, justamente na amostra que você tinha disponível, bjnão estava contido no intervalo (o intervalo está errado). Isso ocorrerá em a% dos casos.

  24. Stata: p-valores, testes t etc. • A maioria dos programas estatísticos computam os p-valores assumindo o teste bilateral. • Se for o caso de um teste unilateral, basta dividir o p-valor do teste bilateral por 2. • O Stata gera a estatística t, o p-valor e o intervalo de confiança de 95% paraH0: bj = 0, nas colunas nomeadas “t”, “P > |t|” e “[95% Conf. Interval]”. • Exemplo 4.7

  25. Testando uma combinação linear • Suponha que ao invés de testar se b1 é igual a uma constante, deseja-se testar se b1 é igual a outro parâmetro, isto é H0 : b1 = b2. • Use o mesmo procedimento para criar a estatística t:

  26. Testando uma combinação linear

  27. Testando uma combinação linear • O cálculo de s12 é complicado. • Alguns softwares terão uma opção para calculá-lo ou para executar o teste automaticamente, mas nem todos. Mas.... • Há uma alternativa muito mais fácil, basta reorganizar o problema para obter o teste na forma necessária.

  28. Exemplo: • Suponha que queremos comparar se um ano de curso superior profissionalizante é equivalente a um ano de universidade (no salário). log(salário) =b0 + b1cp + b2univ + b3exper + u • H0: b1 = b2 e H1: b1 < b2 • Fazendo H0: q1 = b1 - b2 • b1 = q1 + b2, substituindo e rearranjando:log(salário) =b0 + (q1 + b2) cp + b2univ + b3exper + u

  29. Exemplo: log(salário) =b0 + (q1 + b2) cp + b2 univ + b3 exper + u log(salário) =b0 + q1 cp + b2 (cp +univ) + b3 exper + u log(salário) =b0 + q1cp + b2totalgrad + b3exper + u => Notar que agora q1 aparece explicitamente e ep(q1) é calculado junto com as demais estimativas. log(salário) =1,472 + 0,0102 cp + 0,0769 totalgrad+ 0,0049 exper (0,021) (0,0069) (0,0023) (0,0002) O modelo modificado é igual ao original, mas agora tem-se diretamente na saída da regressão o ep(q1).

  30. Exemplo (cont.): • Qualquer combinação linear das parâmetros pode ser testado de maneira similar. • Outros exemplos de hipóteses sobre combinações lineares simples dos parâmetros: • b1 = 1 + b2 ; b1 = 5b2 ; b1 = -1/2b2

  31. Restrições Lineares Múltiplas • Tudo apresentado até aqui envolvia apenas o teste de uma única restrição: (i.e. b1 = 0 ou b1 = b2 ). • Porém, pode-se querer testar várias hipóteses sobre os parâmetros em conjunto. • Um exemplo típico é testar “restrições excludentes” – um grupo de parâmetros é todo igual a zero.

  32. Restrições Excludentes • A hipótese nula agora será algo como: H0: bk-q+1 = 0, ... , bk = 0 • A alternativa é H1: “H0 não é verdadeira”. • Porque não analisar somente a estatística t de cada parâmetros em separado? Porque desejamos saber se os q parâmetros são conjuntamente significantes dado um nível de significância – é possível que nenhum seja significante no nível desejado (e que o grupo seja).

  33. Restrições Excludentes (cont.) É necessário estimar: • “modelo irrestrito” com todas variáveis x1,, …, xk incluídas. • “modelo restrito” sem as variáveis xk-q+1,, …, xk • Queremos verificar se as mudanças em SQR são grandes suficientes para justificar a inclusão de xk-q+1,, …, xk no modelo. Onde: r é o modelo restrito q = números de restrições, ou glr – glir ir é o irrestrito n – k – 1 = glir

  34. A estatística F • É sempre positiva, dado que sempre SQR do modelo restrito >= SQR do modelo irrestrito. • Essencialmente, é uma medida do crescimento relativo de SQR quando saímos do modelo irrestrito para o modelo restrito. • Se o crescimento de SQR, quando mudamos de modelo, for “grande o suficiente” podemos rejeitar a exclusão das variáveis.

  35. A estatística F (cont.) f(F) Rejeite H0 com nível de significância a se F > c Não-rejeitada Rejeitada a (1 - a) 0 c F

  36. Exemplo: Modelo original (irrestrito): log(salário) =b0 + b1anos + b2jogosanos + b3medreb + b4rebpontos+ b5rebcorrida+ u n=353 SQR=183,186 Testar se as estatísticas que medem desempenho: medreb, rebpontos e rebcorrida não tem efeito sobre salário => Ho=b3=0,b4=0,b5 =0 Modelo restrito: log(salário) =b0 + b1anos + b2jogosanos +u n=353 SQR=198,311

  37. Exemplo(cont.): Assim: Com 347 graus de liberdade, o valor crítico a 1% de significância é c= 3,78 F > 3,78, portanto rejeitamos completamente a hipótese de que medreb, rebpontos e rebcorrida não tem efeito sobre salário .

  38. A forma R2 da estatística F • Dado que os SQRs dos modelos podem ser grandes e de manipulação difícil, uma alternativa de formulação é útil neste caso. • Usando o fato que SQR = SQT(1 – R2) para qualquer regressão, pode-se substituir SQRr e SQRir

  39. Significância completa • Um caso especial de restrições excludentes é testar H0: b1 = b2 =…= bk = 0 • Dado que o valor R2 de um modelo somente com intercepto será zero, o valor da estatística F é simplificado para:

  40. Restrições Lineares Gerais • A forma básica da estatística F funcionará para qualquer conjunto de restrições lineares. • Inicialmente, estime o modelo irrestrito e então estime o modelo restrito. • Em cada caso, guarde o valor de SQR. • Impor as restrições pode ser complicado, será necessário redefinir as variáveis novamente. • Não usar a versão R2 neste caso.

  41. Exemplo: • Gastos implicam votos? • O modelo:voteA = b0 + b1log(expendA) + b2log(expendB) + b3prtystrA + u • H0: b1 = 1, b3 = 0 • Substituindo as restrições:voteA = b0 + log(expendA) + b2log(expendB) + u • Usa-se:voteA - log(expendA) = b0 + b2log(expendB) + ucomo modelo restrito.

  42. Resumo da estatística F • Assim como no caso da estatística t, os p-valores podem ser calculados procurando o percentil na tabela da distribuição F adequada. • O Stata gerará estes valores com o comando:“display fprob(q, n – k – 1, F)”onde os valores apropriados de “F”, “q” e “n – k – 1” devem ser usados. • Se somente uma exclusão está sendo testada, então F = t2 e os p-valores serão exatamente os mesmos.

More Related