370 likes | 1.1k Views
PANEL DATA ANALYSIS. 2006. 10. 26. 서울시립대학교 통계학과 정 병 철. 차 례 Introduction - Panel Data Regression Model 2. 회귀계수와 분산성분의 추정 3. 분산성분의 존재유무에 대한 가설검정 모형의 확장 . 1. Introduction 1.1 Panel Data Example : Grunfeld Investment Function Regression Model :.
E N D
PANEL DATA ANALYSIS 2006. 10. 26 서울시립대학교 통계학과 정 병 철
차 례 • Introduction • - Panel Data Regression Model • 2. 회귀계수와 분산성분의 추정 • 3. 분산성분의 존재유무에 대한 가설검정 • 모형의 확장
1. Introduction 1.1 Panel Data Example : Grunfeld Investment Function Regression Model :
1.2 Panel Data : • A given sample of individuals is repeatedly sampled at different points in time. • Longitudinal Data • 주요 분석방법 • - 회귀모형을 이용하여 분석 • Error Component Model
Panel Data의 주요 분석방법 • - 주로 회귀모형이 사용됨 (회귀계수의 추정이 가장 중요함). • (1) : 모든 회귀계수가 개체와 시간에 따라 움직임. • - 문제점 : 관측치 : NT개, parameter : NTK+1개 Random Coefficient Model • (2) : 회귀계수가 개체에 따라 달라짐. • 예) 각 기업별 수요함수의 parameter가 다르다. Not pooled Model • (3) : 회귀계수가 개체와 시간에 관계없이 일정함. • 예) 각 기업의 수요함수는 같을 것이다. Pooled Model
Tests for Poolability of the Data (if ) • 가설 : • 검정통계량 • : pooling한 모형에서의 OLS residual • : i번째 개체의 회귀모형에서 OLS residual을 나타낸다. • Chow Test (1960)
1.3 Panel data regression model 1) Two-way Error Component Model i : Individual(기업, 개인 등) , t : time • 동일한 individual이 여러 time point에서 관측됨. • individual effect와 time effect가 존재 : individual specific effect Two-way Effect Model : time specific effect : 나머지 오차항
2) Nested Error Component Model i : primary group(업종, 지역 등) , j : nested subgroup(업종 내에 지분된 개별 기업) t : time : primary group specific effect Nested Error Component Model : nested subgroup effect : 나머지 오차항
1.4 Fixed Effects Model vs. Random Effects Model • Fixed Effect Model : , treat as fixed parameter • Random Effect Model : , treat as random variable • Fixed Effect Model의 문제점 - 추정량의 효율성이 떨어짐( 추정해야 할 모수의 수의 증가로 자유도의 손실) • 대부분의 패널자료에 대한 분석은 Random effects model을 사용
1.5 Random Effects Model의 사용시 주요고려사항 • 분산-공분산행렬: • 예) Balanced Two-way Random Effect Model의 분산-공분산 행렬 • Estimation, Testing에 새로운 접근이 필요 • 1.6 Random Effect Model의 주요 해결사항 • - 회귀계수와 분산성분의 추정 • - 분산성분의 존재유무에 대한 가설검정
2. 회귀계수와 분산성분의 추정 • OLS estimate : Inefficiency • GLS(Generalized Least Squares) : Theoretical • Feasible GLS : 2단계 추정법 1) 분산성분의 추정(ANOVA type) 2) 추정된 분산성분을 이용하여 회귀계수의 추정 • Maximum Likelihood(ML) type 추정량: ML, REML
2.1 Model : Two-way Error Component Model • 행렬형태로 표현 • 분산-공분산 행렬
2.2 회귀계수와 분산성분의 추정 1) OLS 추정량 • 분산성분의 존재를 무시함으로 inefficiency • 특히 추정량의 표준오차가 biased되는 문제가 발생 2) GLS 추정량 분산성분 , , 이 알려졌다는 가정하에서 구함 이론적인 추정량 (실제 자료에서는 이들 분산성분의 값이 알려져 있지 않음)
3) WTN 추정량 오차성분 , 가 Fixed Effect라는 가정하에서 구하는 회귀계수 추정방법 • 비교적 간편하게 계산되지만 , 가 Random Effect라면효율성이 떨어지는 추정량
4) FGLS 추정법 (2단계 추정법) • - ANOVA 방법을 이용한 2단계 추정법 • step 1. 분산성분의 추정(ANOVA type) • - equate quadratic sums of squares to their expectations, • estimate variance components • step 2. 추정된 분산성분을 이용하여 회귀계수의 재추정
Step 1에서 분산성분에 대한 추정방법에 따라 4가지 형태의 ANOVA 추정량을 고려 - WH(Wallace and Hussian) : OLS Residual을 이용 - Amemiya : Within Residual을 이용 - SW(Swamy and Arora) : 3개의 regression 이용 (WTN model, Time model, Individual model) - FUBA(Fuller and Battese) : Henderson 3 방법 사용 …
2) ML추정 • Log-likelihood Function • , , , 에 대한 closed form solution은 • 존재하지 않음 • 반복에 의한 수치적인 방법으로 구해야 함. • Fisher의 scoring method가 사용 됨.
3) REML추정 • 분산성분에 대한 ML추정량 : Fixed Parameter로 인하여 발생하는 자유도의 손실을 보정하지 않음. • Patterson and Thompson (1971) : • REML estimator based on a transformation that partitions the • likelihood function into two parts. • A’Y is free from regression parameters • Maximize this part REML estimator of variance component • Numerical Method : Fisher’s scoring method
2.3 회귀계수의 추정 (Grunfeld 투자함수 Data) - Twoway error component model
2.4 모의실험 • Model : Simple Linear Regression Model • Data Generating Method (a) Independent variable : Nerlove(1971) (b) Error term : - Fixing : - =(0,0.2,0.4,0.6,0.8)
Comparison of Regression Coefficients (각 추정량의 MSE/ GLS의 MSE) • 회귀계수 추정에 있어서 Feasible GLS나 ML type추정량의 효율성에 차이를 보이지 않음. 계산이 간편한 ANOVA type의 Feasible GLS를 사용하는 것이 효율적임.
Comparison of variance Components (각 추정량의 MSE/ MLE의 MSE) • ML 추정량의 효율이 가장 좋음 • REML 추정량의 효율이 그 다음으로 좋음 • ANOVA 추정량의 효율은 떨어짐
2.5 추정의 결론 • Focusing on the estimates of the variance components, • - The computationally more demanding MLE and REML estimators • are recommended. • Focusing on the regression coefficients estimates, • - The ANOVA methods do not require normality assumptions • which are necessary to the ML type estimators. • - The simple ANOVA methods perform just as well as the • computationally demanding MLE and REML methods.
3. 분산성분의 존재유무에 대한 가설검정 • 만일 이라면 (individual effect와 time effect가 존재하지 않는다면) 추정이 간편한 OLS 방법에 의해 회귀계수에 대한 추정 • 만일 또는 이라면 (둘 중 하나의 effect만 존재한다면) Twoway error component model보다는 Oneway error Component model을 이용하는 것이 좋을 것이다.
고려 가능한 가설 a) : joint test : conditional test b) : marginal test c) • 사용가능한 가설검정 a) LR(Likelihood Ratio) Test • b) LM(Lagrange Multiplier) type Test • - H0 하에서의 정보만을 이용하므로 계산이 간편 • Error Component Model에서 가설검정에 주로 사용
LM Test Statistic : H0하에서 계산된 각 모수에 대한 스코어 벡터 : H0하에서 계산된 정보행렬(Information matrix)
3.1 Conditional Test ( ) • LM and LR test statistic Under
3.2 모의실험 결과 - gamma1 : gamma2 : - Marginal Test : 으로 가정 - Conditional Test : 으로 가정 (1,000번 반복, 명목유의수준 0.05)
모의실험 결과 • Marginal test(LM, LR)의 추정된 유의수준은 이 커질수록 작아져, • 명목유의수준을 유지하지 못함 • Conditional test(LM, LR)는 명목유의수준을 제대로 유지함 • LM test의 검정력이 LR test보다 높게 나타남 3.3 가설검정 결론 • 만일 개체효과를 검정할 시 시간효과가 존재할 가능성이 있는 경우, • 이를 무시하는 Marginal test보다는 이를 조절하는 Conditional test의 • 사용이 바람직하다. • 2) 계산이 간편한 LM검정이 계산이 복잡한 LR검정에 비하여 효율적이다.
4. 모형의 확장 • (1) Heteroskedasticity and Serial Correlation • One-way random effects model • (a) Heteroskedasticity : • Testing for LM test • Estimation for Feasible GLS or ML • (b) Aotocorrelation : • Testing for LM test • Estimation for Feasible GLS or ML
(2) Dynamic Panel Data Regression Model • 오차항과 설명변수가 correlate • Instrumental Variable (IV) techque or GMM estimation method • Reference • - Arrelano and Bond (1991), Arrelano and Bover (1991), • Ahn and Schmidt (1993) and Keane and Runkle (1992), …
(3) Panel Count Data regression Model – Poisson and NB i =1,…,N : 개체, t =1,…,T : 시간 : Individual Specific effect • Panel Count Data regression Model • Fixed Effect Model • Random Effect Model Zero-inflated Poisson Panel regression Model
Panel Count Data regression Model의 주요 참고문헌 • Hausman, et al.(1984, 1986) – Poisson and NB (Fixed/Random) • Page (1995) – Poisson Fixed Effects Model • Blonigen(1997) – NB2 Random Effects Model • Allison and Waterman (2001) – NB2 Fixed Effects Model • Chip et al.(1998) – Poisson Random Effects Model with Gaussian Random • Effects MCMC • Hall(2000),Yau and Lee(2001) – Zero Inflated Poisson with Random Effects • Yau, et al. (2003) – Zero Inflated NB with Random Effects • Panel Count Data regression Model의 주 연구분야 • a) Estimation (Variance components, Regression Coefficient) • EM Algorithm • Conditional ML Method • Moment Based Methods • b) Testing – Score test, LR test • 개체효과 존재여부 • Over-Dispersion