CAP 5 BAUM – Specifying the functional form (especificando a forma funcional)

CAP 5 BAUM – Specifying the functional form (especificando a forma funcional) Henrique Dantas Neder – prof. Instituto de Economia da Universidade Federal de Uberlândia

Erro de especificação • A consistência do estimador da regressão linear requer que a função de regressão da amostra corresponda a função de regressão subjacente ou o verdadeiro modelo de regressão para a variável de resposta (dependente) y:

Erro de especificação (cont.) • A teoria econômica freqüentemente fornece um guia na especificação do modelo, mas pode ser que ela não indique explicitamente como uma variável específica entre no modelo ou identifique a forma funcional. • O modelo deve ser estimado em níveis para as variáveis; ou emumaestruturalogaritmica; como um polinomioem um oumais dos regressores? • Emgeral a teoria se calafrente a estespontosespecificos e temosqueutilizarestratégiasempiricas.

Omissão de variáveis relevantes do modelo (subespecificação) • Suponha que o verdadeiro modelo (população) é: • com k1 e k2 regressores em dois subconjuntos, mas regredimos y somente sobre as variáveis x1:

Omissão de variáveis (cont.) • A solução de mínimos quadrados ordinários é: • A menos que ou , a estimativa • de é viesada, desde que: • onde

Omissão de variáveis (cont.) • é uma matriz k1xk2 refletindo a regressão de cada coluna de nas colunas de . • Se k1=k2 e a variável única em é correlacionada com a variável única em , podemos prever a direção do viés. Mas se tivermos múltiplas variáveis em cada conjunto não podemos prever a natureza do viés dos coeficientes.

Omissão de variáveis (cont.) * OMISSAO DE VARIAVEIS RELEVANTES NO MODELO matrixdrop _all * Vamos considerar o arquivo gpa2 do Wooldridge como dados de uma população use "f:\Minhas Webs\DADOS\DADOS WOOLDRIDGE\gpa2.dta", clear *Vamos verificar o tamanho N da população e calcular os valores dos parâmetros Count regress colgpahsperc sat hsize matrixbpop = e(b) matrixlistbpop matrixbetapop = e(b) matrixbetapop = betapop' matrixlistbetapop matrix beta1pop = J(2,1,0) matrix beta1pop[2,1] = betapop[1,1] matrix beta1pop[1,1] = betapop[4,1]

Omissão de variáveis (cont.) matrix beta2pop[1,1] = betapop[2,1] matrix beta2pop[2,1] = betapop[3,1] predictresiduo, residuals * vamos selecionar uma amostra aleatória de tamanho n = 50 sample 50, count regress colgpahsperc sat hsize regresscolgpahsperc * vamos gerar o valor da estimativa viesada do parâmetro beta1 matrix b = e(b) matrixlist b genconst = 1 mkmatresiduo, matrix(u) mkmatconsthsperc, matrix(X1) mkmatsathsize, matrix(X2) mkmatcolgpa, matrix(Y)

Omissão de variáveis (cont.) * Vamos calcular a estimativa do parâmetro beta1 nesta ultima regressão * (com omissão da variável sat) utilizando álgebra linear e empregando * a expressão da pagina 116 do Baum matrix betahat1 = inv(X1'*X1)*X1'*Y matrixlist betahat1 matrix P1 = inv(X1'*X1)*X1' matrix P2 = inv(X1'*X1)*X1'*X2 matrix betahat2 = beta1pop + P2*beta2pop + P1*u matrixlist betahat1 matrixlist betahat2

Omissão de variáveis (cont.) • Wooldridge (2006) apresenta na pg 90 um quadro resumo para modelos de 2 variáveis: • Se a correlação entre X1 e X2 é nula na população, as estimativas de regressão são consistentes mas provavelmente serão viesadas em amostras finitas.

Omissão de variáveis (cont.) • Mais a frente será abordado um dos métodos para corrigir o viés devido a omissão de variáveis: em Baum, pg 216 é mostrado como o método das variáveis instrumentais pode solucionar o problema. • Considere a relação entre a variável SAT (escores de testes de aptidão de estudantes), expend (gastos por aluno) e poverty (a proporção de pobres em cada distrito):

Omissão de variáveis (cont.) • Não podemos estimar esta equação porque não temos acesso a dados distritais sobre pobreza. • Entretanto, este fator tem uma importante função no resultado educacional, sendo uma proxy da qualidade do ambiente familiar do estudante. • Se temos uma proxy para pobreza, podemos incluí-la no modelo, como por exemplo, a renda mediana do distrito.

Omissão de variáveis (cont.) • O sucesso desta estratégia dependerá da força da correlação entre esta proxy e a pobreza que é uma variável não observável. • Se não temos uma proxy disponível, podemos estimar a equação ignorando a pobreza: • O termo (processo) de perturbação aleatória nesta equação é composto por

Omissão de variáveis (cont.) • Se expend e poverty são correlacionadas – e provavelmente são – a regressão gerará estimativas viesadas e inconsistentes de e porque a hipótese de média condicional nula é violada. • Para derivar estimativas consistentes na equação temos que encontrar uma variável instrumental, ou seja, uma variável que seja não correlacionada com os fatores não observáveis que afetam a variável dependente (inclusive a variável poverty) e altamente correlacionada com expend.

Omissão de variáveis (cont.) • Um possível instrumento para poverty seria a relação estudante-professor no distrito (stratio) já que ela deve ser negativamente correlacionada com expend. • O método IV aqui poderia consistir em estimar um modelo em dois estágios:

Omissão de variáveis (cont.) • Primeiramente estimamos o valor da variável expend através da segunda equação do sistema anterior. • Em seguida utilizamos o valor desta estimativa como um dos regressores na primeira equação (expendhat).

Gráficos de adição de variáveis • Tomando cada regressor por vez, o gráfico de adição de variáveis (“added-variable plot”) é baseado em duas séries de resíduos: • A série c1 contem os resíduos da regressão de y contra todas as variáveis x exceto a variável xk que está sendo “testada”. • A série c2representa a informaçao (resíduo) de y quenaopode ser explicadaportodososoutrosregressores (excetoxk). • O gráfico de adiçao de variáveisparaxk é o diagrama de dispersao de c2 (no eixo dos y) versus c1 (no eixo dos x).

Gráficos de adição de variáveis • Dois casos opostos são de interesse: • 1) Se a maioria dos pontos estao em torno de uma linha horizontal na ordenada zero, a variável xké irrelevante. • 2) Se a maioria dos pontosestaoemvolta de umalinha vertical com abscissa zero o gráficoestáindicandoquaseperfeitamulticolinearidade. • Se a inclinaçao de uma eventual relaçao linear entre c1 e c2 é significativa, xktem uma importante contribuição no modelo além dos outros regressores.

Gráficos de adição de variáveis • Temos diversos “outliers” (observaçoes que estão fora da linha), particularmante evidentes para os gráficos lnox e ldist. Baixos valores de E[lnox|X] e E[ldist|X] saoassociados com preçosmaiselevados do queaquelespreditospelomodelo. • As estatisticas t testam a hipotese de que a linha de mínimosquadrados tem umainclinaçaosignificativa (≠ 0). Estes testes saoidenticosaodaregressao original.

Incluindo variáveis irrelevantes no modelo (sobreespecificaçao) • Incluir variáveis irrelevantes no modelo na viola a hipótese de média condicional nula (pois seus coeficientes na população – parâmetros são nulos). • Suponha que o verdadeiro modelo é: Mas incluímos erroneamente diversas variáveis x2 no nosso modelo de regressão.

Incluindo variáveis irrelevantes no modelo (sobre-especificação) • Incluir variáveis irrelevantes no modelo não afeta o não viés das variáveis relevantes incluídas no modelo. Wooldridge(2006) lembra que para qualquer valor de , incluindo . Então concluímos que para qualquer valor de . • No entanto, isto terá indesejáveis efeitos na variância dos estimadores, como será visto mais tarde.

Incluindo variáveis irrelevantes no modelo (sobre-especificação) • Baum (pg 121) analisando estimadores os efeitos da sobre-especificação nas propriedades dos OLS da regressão afirma que: • Incluir variáveis irrelevantes mantém as propriedades de não viés e consistência dos estimadores de . • No entanto os estimadores terão variância mais elevada (menos precisos) do que se o modelo fosse corretamente especificado. • Claramente, sobre-especificar custa mais do que sub-especificar o modelo e o modelo sobre-especificado gera estimativas não viesadas e consistentes para todos os seus parâmetros, inclusive os dos regressores irrelevantes, que tendem a zero.

A assimetria do erro de especificação • Os custos do dois tipos de erro de especificação são assimétricos. • Disto se conclui que uma estratégia melhor é iniciar com uma especificação geral (mesmo que sobre-especificada) e impor ao modelo restrições apropriadas. • Muitas investigações empíricas contem muita busca por especificação (nesta estratégia do geral para o particular).

A assimetria do erro de especificação • Limites da inferência estatística: podemos rodar 20 regressões a partir de 20 amostras aleatórias simples selecionadas de uma mesma população onde determinado regressor não existe no modelo verdadeiro, mas ao nível de significância de 5 % podemos esperar que uma destas 20 regressões amostrais mostre erroneamente uma relação entre a variável dependente e este regressor sobre-especificado .

Sub-especificação da forma funcional • O modelo pode não refletir a relação algébrica correta entre a variável dependente e os regressores. Por exemplo, o verdadeiro modelo da população tem uma forma funcional quadrática e o estimamos na amostra como uma relação linear, omitindo o termo do regressor elevado ao quadrado:

Sub-especificação da forma funcional • Em um sentido este problema é mais simples de lidar do que o problema de omissão de variáveis: na sub-especificação da forma funcional temos todas as variáveis consideradas e temos somente que escolher a forma apropriada em que elas entram na equação de regressão.

O teste RESET de Ramsey • O teste RESET (regressionspecificationerrortest) executa uma regressão aumentada que inclui os regressores originais, potencias dos valores preditos da regressão original e potencias dos regressores originais. • H0: os coeficientes dos regressores adicionais = 0 • O teste é simplesmente um teste Wald. • Ele baseia-se na idéia de que polinômios em podem aproximar uma variedade de relações funcionais entre y e os regressores x.

Gráfico para verificação da especificação comando rvpplot ou menu Statistics => Linear modelsandrelated => RegressionDiagnostics => Residual-versus-predictorplot O gráfico mostra que a hipótese de homocedasticidade é violada

Erro de especificação – termos de interação • Podemos considerar que no verdadeiro modelo da população é uma função de , de forma que o modelo deve ser especificado como: O efeito de xjdepende de xl

Erro de especificação – termos de interação • Neste ultimo modelo estamos incluindo uma variável – taxachl – que é a interação entre lproptax – o logaritmo da média dos impostos de propriedades da comunidade e stratio – a relação estudante-professor no nosso modelo de determinação de preços de casas. • Como o coeficiente do termo de interação é negativo, interpreta-se que a derivada parcial negativa de lprice com relação a lproptax (stratio) torna-se menos negativa (aproxima-se de zero) para maiores níveis de stratio (lproptax).

CAP 5 BAUM – Specifying the functional form (especificando a forma funcional)

CAP 5 BAUM – Specifying the functional form (especificando a forma funcional)

Presentation Transcript

SE 4367 Functional Testing

Protein and its functional properties in food products

Craniometry and Functional Craniology

Building Competitive Advantage through Functional Level Strategy

Functional Tests

Lecture 10 : Heteroskedasticity

Functional Skills Level 1 Maths revision

Forma delle molecole e Orbitali Molecolari

3NF and Boyce-Codd Normal Form

Cross-Functional Information Systems

Functional Properties of Carbohydrate

Functional Dysphonia/ Muscle Tension Dysphonia (MTD)

Functional Behavior Assessments and Positive Behavior Support Plans

Measuring Child Outcomes with the Summary of Functional Performance: An Introduction

Introduction to functional neuroimaging Didem Gökçay

Chapter 7: Relational Database Design

EXPLORACIÓN FUNCIONAL

Functional Groups

FORMA E CONTENUTO. Logico, ma non ovvio. Perchè dare forma ad uno spazio di lavoro

Functional Programming with Scheme

The role of contours in form-based motion processing

Functional Programming You Already Know