350 likes | 642 Views
Aula 9 . Regressão Linear Simples. Qualidade de modelo. 1. C.Dougherty “ Introduction to Econometrics ” 2 . Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição. amostra. Modelo – relação entre variável x e y y = F(x) ?. população. termo de perturbação
E N D
Aula 9. Regressão Linear Simples. Qualidade de modelo 1. C.Dougherty“IntroductiontoEconometrics” 2. Capítulo 16. Bussab&Morettin“Estatística Básica” 7ª Edição
amostra Modelo – relação entre variável x e y y = F(x) ? população termo de perturbação – parte aleatória do modelo Modelo: F(x) é simples linear parte não aleatória termo de perturbação – omissão de variável explicative – agregação de variáveis – espicificação incorreta do modelo – espicificação incorreta de dependência funcional – erros de medição
y y x x Estimação de parâmetros. Método de mínimos quadrados observações objeto de estudo, por exemplo x é renda familiar y é gasto em alimentos ? ? mas parâmetros são desconhecidos
y x Estimação de parâmetros. Método de mínimos quadrados verdadeiro estimação como? desvio (erro) ideia – minimirar soma total dos erros realizamos – minimizar soma total de quadrados dos erros
Estimação de parâmetros. Método de mínimos quadrados achar a e b tais que SS(a, b) possue o valor minimo possível
y x Estimação de parâmetros. Método de mínimos quadrados Media de x e a média de y estão na reta de regressão:
estimação verdadeiro Interpretação de equação de regressão FOOD = 53.044 + 0.097 DPI FOODnew= 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097 As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents. Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.
parte aleatória do modelo Modelo estatístico Gauss-Markov conditions 1. para todos os 2. para todos os (homoscedasticidade) 3. são independentes para todos os 4. não depende do são independentes – termo de perturbação não depende de variáveis explicativas OBS: em curso vamos considerar como constante 5. tem distribuição normal • são i.i.d. • e são independentes
Propriedades estatísticas de coeficientes e são não viesados: EX.DOMÉSTICO: provar que a não viesado
Propriedades estatísticas de coeficientes como estimar a variância de termo de perturbação? um candidato para estimar e é Mas Var(e) é viesado: sub-estima a variação verdareira não viesado
Propriedades estatísticas de coeficientes menor σ2 → menor variação de b maior Var(x) → menor variação de b
Teste de hipótese FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043) e são estatisticamente significados? estatística do teste é graus de liberdade valor critico de bilateral é
Teste de hipótese saida do programa R www.r-project.org Call: lm(formula = x$FOOD ~ x$DPI) Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Supomos que taxa percentual da inflação de preços depende da taxa percentual da inflação salarial de accordo com o modelo linear: Teste de hipótese Nos podemos supor tambem que na realidade a taxa pecentual da inflação de preços é igual à taxa percentual da inflação salarial. Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é estatística do teste correspondente nesse caso é graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
população qualidade de modelo é a significância de coeficientes a e b qualidade de modelo “inteiro” em “total” ? podemos analizar variação de dados – se o modelo explica bem a variação total de dados ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2 variação total: variação de dados ajustados: ? variação “não explicada”, erro:
ANOVA, e qualidade de ajuste (goodness of fit) R2 SSReg s2e MSSReg MSSErro n número de observações k numero de parâmtros Tabela ANOVA para modelo de regressão causas de variação graus de liberades soma quadrados quadrados médios nível descritivo F-estatística k -1 SSReg MSSReg=SSReg/(k-1) p Regressão Resíduo n - k SSErro MSSErro=SSErro/(n - k) Total n -1 SSTotal Tabela ANOVA para modelo de regressão caso k=2 causas de variação graus de liberades soma quadrados quadrados médios nível descritivo F-estatística 1 SSReg MSSReg=SSReg p Regressão Resíduo n - 2 SSErro SSErro/(n - 2)=s2e Total n -1 SSTotal
ANOVA, e qualidade de ajuste (goodness of fit) R2 Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo, usando a estatística que chama se coeficiente de determinação (coefficient of determination) F estatistica de análise de variância pode ser representada em modo alternativo em caso k = 2
ANOVA, e qualidade de ajuste (goodness of fit) R2 saida do programa R www.r-project.org Call: lm(formula = x$FOOD ~ x$DPI) Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16 F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414 R-squared: 0.9552744 F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses Qual hipótese testa F-estatística (ANOVA)? t-estatística? testes tem que ser equivalentes Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 *** x$DPI 0.097104 0.004381 22.16 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16 22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear Transformação básica: consumo anual de bananas (y) salario anual (x) foram oservadas 10 familias y = 5.09 + 0.73 x R2 = 0.64 (s.e.) (1.23) (0.20) coeficiente estao significantes construimos gráfico:
Modelos não lineares que podem ser estimados atraves de regressão linear z = 1 / x y = 5.09 + 0.73 x R2 = 0.64 (s.e.) (1.23) (0.20) y = 12.08 - 10.08 z R2 = 0.9989 (s.e.) (0.04) (0.12)
Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica. se a elasticidade de y ao respeito de x é constante, entao usaremos a função potência. Elasticidade de y ao respeito da variável x é, pela definição, incremento proporcional de y pelo dado incremento proporcional de x
Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica. para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em alimentos (y) em relação ao salario (x). A regressão realizada é ln y = 1.20 + 0.55 ln x transformando pela função potência temos y = e1.20 x0.55 = 3.32 x0.55 esse resultado sugere que elasticidade de demanda de alimentos em relacão ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento de demanda de alimentos em 0.55%. Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever o valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial. Incremento absoluto em y pela unidade de tempo é dada por Incremento proporcional em y pela unidade de tempo é dada por Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial. para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é ln y = 4.58 + 0.02 T transformando pela função potência temos y = e4.58 e0.02 T = 97.5 e0.02 T esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias: C.Dougherty’scourse internet access: http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/