370 likes | 473 Views
CAP 5 BAUM – Specifying the functional form (especificando a forma funcional). Henrique Dantas Neder – prof. Instituto de Economia da Universidade Federal de Uberlândia. Erro de especificação.
E N D
CAP 5 BAUM – Specifying the functional form (especificando a forma funcional) Henrique Dantas Neder – prof. Instituto de Economia da Universidade Federal de Uberlândia
Erro de especificação • A consistência do estimador da regressão linear requer que a função de regressão da amostra corresponda a função de regressão subjacente ou o verdadeiro modelo de regressão para a variável de resposta (dependente) y:
Erro de especificação (cont.) • A teoria econômica freqüentemente fornece um guia na especificação do modelo, mas pode ser que ela não indique explicitamente como uma variável específica entre no modelo ou identifique a forma funcional. • O modelo deve ser estimado em níveis para as variáveis; ou emumaestruturalogaritmica; como um polinomioem um oumais dos regressores? • Emgeral a teoria se calafrente a estespontosespecificos e temosqueutilizarestratégiasempiricas.
Omissão de variáveis relevantes do modelo (subespecificação) • Suponha que o verdadeiro modelo (população) é: • com k1 e k2 regressores em dois subconjuntos, mas regredimos y somente sobre as variáveis x1:
Omissão de variáveis (cont.) • A solução de mínimos quadrados ordinários é: • A menos que ou , a estimativa • de é viesada, desde que: • onde
Omissão de variáveis (cont.) • é uma matriz k1xk2 refletindo a regressão de cada coluna de nas colunas de . • Se k1=k2 e a variável única em é correlacionada com a variável única em , podemos prever a direção do viés. Mas se tivermos múltiplas variáveis em cada conjunto não podemos prever a natureza do viés dos coeficientes.
Omissão de variáveis (cont.) * OMISSAO DE VARIAVEIS RELEVANTES NO MODELO matrixdrop _all * Vamos considerar o arquivo gpa2 do Wooldridge como dados de uma população use "f:\Minhas Webs\DADOS\DADOS WOOLDRIDGE\gpa2.dta", clear *Vamos verificar o tamanho N da população e calcular os valores dos parâmetros Count regress colgpahsperc sat hsize matrixbpop = e(b) matrixlistbpop matrixbetapop = e(b) matrixbetapop = betapop' matrixlistbetapop matrix beta1pop = J(2,1,0) matrix beta1pop[2,1] = betapop[1,1] matrix beta1pop[1,1] = betapop[4,1]
Omissão de variáveis (cont.) matrix beta2pop[1,1] = betapop[2,1] matrix beta2pop[2,1] = betapop[3,1] predictresiduo, residuals * vamos selecionar uma amostra aleatória de tamanho n = 50 sample 50, count regress colgpahsperc sat hsize regresscolgpahsperc * vamos gerar o valor da estimativa viesada do parâmetro beta1 matrix b = e(b) matrixlist b genconst = 1 mkmatresiduo, matrix(u) mkmatconsthsperc, matrix(X1) mkmatsathsize, matrix(X2) mkmatcolgpa, matrix(Y)
Omissão de variáveis (cont.) * Vamos calcular a estimativa do parâmetro beta1 nesta ultima regressão * (com omissão da variável sat) utilizando álgebra linear e empregando * a expressão da pagina 116 do Baum matrix betahat1 = inv(X1'*X1)*X1'*Y matrixlist betahat1 matrix P1 = inv(X1'*X1)*X1' matrix P2 = inv(X1'*X1)*X1'*X2 matrix betahat2 = beta1pop + P2*beta2pop + P1*u matrixlist betahat1 matrixlist betahat2
Omissão de variáveis (cont.) • Wooldridge (2006) apresenta na pg 90 um quadro resumo para modelos de 2 variáveis: • Se a correlação entre X1 e X2 é nula na população, as estimativas de regressão são consistentes mas provavelmente serão viesadas em amostras finitas.
Omissão de variáveis (cont.) • Mais a frente será abordado um dos métodos para corrigir o viés devido a omissão de variáveis: em Baum, pg 216 é mostrado como o método das variáveis instrumentais pode solucionar o problema. • Considere a relação entre a variável SAT (escores de testes de aptidão de estudantes), expend (gastos por aluno) e poverty (a proporção de pobres em cada distrito):
Omissão de variáveis (cont.) • Não podemos estimar esta equação porque não temos acesso a dados distritais sobre pobreza. • Entretanto, este fator tem uma importante função no resultado educacional, sendo uma proxy da qualidade do ambiente familiar do estudante. • Se temos uma proxy para pobreza, podemos incluí-la no modelo, como por exemplo, a renda mediana do distrito.
Omissão de variáveis (cont.) • O sucesso desta estratégia dependerá da força da correlação entre esta proxy e a pobreza que é uma variável não observável. • Se não temos uma proxy disponível, podemos estimar a equação ignorando a pobreza: • O termo (processo) de perturbação aleatória nesta equação é composto por
Omissão de variáveis (cont.) • Se expend e poverty são correlacionadas – e provavelmente são – a regressão gerará estimativas viesadas e inconsistentes de e porque a hipótese de média condicional nula é violada. • Para derivar estimativas consistentes na equação temos que encontrar uma variável instrumental, ou seja, uma variável que seja não correlacionada com os fatores não observáveis que afetam a variável dependente (inclusive a variável poverty) e altamente correlacionada com expend.
Omissão de variáveis (cont.) • Um possível instrumento para poverty seria a relação estudante-professor no distrito (stratio) já que ela deve ser negativamente correlacionada com expend. • O método IV aqui poderia consistir em estimar um modelo em dois estágios:
Omissão de variáveis (cont.) • Primeiramente estimamos o valor da variável expend através da segunda equação do sistema anterior. • Em seguida utilizamos o valor desta estimativa como um dos regressores na primeira equação (expendhat).
Gráficos de adição de variáveis • Tomando cada regressor por vez, o gráfico de adição de variáveis (“added-variable plot”) é baseado em duas séries de resíduos: • A série c1 contem os resíduos da regressão de y contra todas as variáveis x exceto a variável xk que está sendo “testada”. • A série c2representa a informaçao (resíduo) de y quenaopode ser explicadaportodososoutrosregressores (excetoxk). • O gráfico de adiçao de variáveisparaxk é o diagrama de dispersao de c2 (no eixo dos y) versus c1 (no eixo dos x).
Gráficos de adição de variáveis • Dois casos opostos são de interesse: • 1) Se a maioria dos pontos estao em torno de uma linha horizontal na ordenada zero, a variável xké irrelevante. • 2) Se a maioria dos pontosestaoemvolta de umalinha vertical com abscissa zero o gráficoestáindicandoquaseperfeitamulticolinearidade. • Se a inclinaçao de uma eventual relaçao linear entre c1 e c2 é significativa, xktem uma importante contribuição no modelo além dos outros regressores.
Gráficos de adição de variáveis • Temos diversos “outliers” (observaçoes que estão fora da linha), particularmante evidentes para os gráficos lnox e ldist. Baixos valores de E[lnox|X] e E[ldist|X] saoassociados com preçosmaiselevados do queaquelespreditospelomodelo. • As estatisticas t testam a hipotese de que a linha de mínimosquadrados tem umainclinaçaosignificativa (≠ 0). Estes testes saoidenticosaodaregressao original.
Incluindo variáveis irrelevantes no modelo (sobreespecificaçao) • Incluir variáveis irrelevantes no modelo na viola a hipótese de média condicional nula (pois seus coeficientes na população – parâmetros são nulos). • Suponha que o verdadeiro modelo é: Mas incluímos erroneamente diversas variáveis x2 no nosso modelo de regressão.
Incluindo variáveis irrelevantes no modelo (sobre-especificação) • Incluir variáveis irrelevantes no modelo não afeta o não viés das variáveis relevantes incluídas no modelo. Wooldridge(2006) lembra que para qualquer valor de , incluindo . Então concluímos que para qualquer valor de . • No entanto, isto terá indesejáveis efeitos na variância dos estimadores, como será visto mais tarde.
Incluindo variáveis irrelevantes no modelo (sobre-especificação) • Baum (pg 121) analisando estimadores os efeitos da sobre-especificação nas propriedades dos OLS da regressão afirma que: • Incluir variáveis irrelevantes mantém as propriedades de não viés e consistência dos estimadores de . • No entanto os estimadores terão variância mais elevada (menos precisos) do que se o modelo fosse corretamente especificado. • Claramente, sobre-especificar custa mais do que sub-especificar o modelo e o modelo sobre-especificado gera estimativas não viesadas e consistentes para todos os seus parâmetros, inclusive os dos regressores irrelevantes, que tendem a zero.
A assimetria do erro de especificação • Os custos do dois tipos de erro de especificação são assimétricos. • Disto se conclui que uma estratégia melhor é iniciar com uma especificação geral (mesmo que sobre-especificada) e impor ao modelo restrições apropriadas. • Muitas investigações empíricas contem muita busca por especificação (nesta estratégia do geral para o particular).
A assimetria do erro de especificação • Limites da inferência estatística: podemos rodar 20 regressões a partir de 20 amostras aleatórias simples selecionadas de uma mesma população onde determinado regressor não existe no modelo verdadeiro, mas ao nível de significância de 5 % podemos esperar que uma destas 20 regressões amostrais mostre erroneamente uma relação entre a variável dependente e este regressor sobre-especificado .
Sub-especificação da forma funcional • O modelo pode não refletir a relação algébrica correta entre a variável dependente e os regressores. Por exemplo, o verdadeiro modelo da população tem uma forma funcional quadrática e o estimamos na amostra como uma relação linear, omitindo o termo do regressor elevado ao quadrado:
Sub-especificação da forma funcional • Em um sentido este problema é mais simples de lidar do que o problema de omissão de variáveis: na sub-especificação da forma funcional temos todas as variáveis consideradas e temos somente que escolher a forma apropriada em que elas entram na equação de regressão.
O teste RESET de Ramsey • O teste RESET (regressionspecificationerrortest) executa uma regressão aumentada que inclui os regressores originais, potencias dos valores preditos da regressão original e potencias dos regressores originais. • H0: os coeficientes dos regressores adicionais = 0 • O teste é simplesmente um teste Wald. • Ele baseia-se na idéia de que polinômios em podem aproximar uma variedade de relações funcionais entre y e os regressores x.
Gráfico para verificação da especificação comando rvpplot ou menu Statistics => Linear modelsandrelated => RegressionDiagnostics => Residual-versus-predictorplot O gráfico mostra que a hipótese de homocedasticidade é violada
Erro de especificação – termos de interação • Podemos considerar que no verdadeiro modelo da população é uma função de , de forma que o modelo deve ser especificado como: O efeito de xjdepende de xl
Erro de especificação – termos de interação • Neste ultimo modelo estamos incluindo uma variável – taxachl – que é a interação entre lproptax – o logaritmo da média dos impostos de propriedades da comunidade e stratio – a relação estudante-professor no nosso modelo de determinação de preços de casas. • Como o coeficiente do termo de interação é negativo, interpreta-se que a derivada parcial negativa de lprice com relação a lproptax (stratio) torna-se menos negativa (aproxima-se de zero) para maiores níveis de stratio (lproptax).