1 / 34

PANEL DATA ANALYSIS

PANEL DATA ANALYSIS. 2006. 10. 26. 서울시립대학교 통계학과 정 병 철. 차 례 Introduction - Panel Data Regression Model 2. 회귀계수와 분산성분의 추정 3. 분산성분의 존재유무에 대한 가설검정 모형의 확장 . 1. Introduction 1.1 Panel Data Example : Grunfeld Investment Function Regression Model :.

malorie
Download Presentation

PANEL DATA ANALYSIS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PANEL DATA ANALYSIS 2006. 10. 26 서울시립대학교 통계학과 정 병 철

  2. 차 례 • Introduction • - Panel Data Regression Model • 2. 회귀계수와 분산성분의 추정 • 3. 분산성분의 존재유무에 대한 가설검정 • 모형의 확장

  3. 1. Introduction 1.1 Panel Data Example : Grunfeld Investment Function Regression Model :

  4. 1.2 Panel Data : • A given sample of individuals is repeatedly sampled at different points in time. • Longitudinal Data • 주요 분석방법 • - 회귀모형을 이용하여 분석 •  Error Component Model

  5. Panel Data의 주요 분석방법 • - 주로 회귀모형이 사용됨 (회귀계수의 추정이 가장 중요함). • (1) : 모든 회귀계수가 개체와 시간에 따라 움직임. • - 문제점 : 관측치 : NT개, parameter : NTK+1개  Random Coefficient Model • (2) : 회귀계수가 개체에 따라 달라짐. • 예) 각 기업별 수요함수의 parameter가 다르다.  Not pooled Model • (3) : 회귀계수가 개체와 시간에 관계없이 일정함. • 예) 각 기업의 수요함수는 같을 것이다.  Pooled Model

  6. Tests for Poolability of the Data (if ) • 가설 : • 검정통계량 • : pooling한 모형에서의 OLS residual • : i번째 개체의 회귀모형에서 OLS residual을 나타낸다. •  Chow Test (1960)

  7. 1.3 Panel data regression model 1) Two-way Error Component Model i : Individual(기업, 개인 등) , t : time • 동일한 individual이 여러 time point에서 관측됨. • individual effect와 time effect가 존재 : individual specific effect Two-way Effect Model : time specific effect : 나머지 오차항

  8. In Vector Form

  9. 2) Nested Error Component Model i : primary group(업종, 지역 등) , j : nested subgroup(업종 내에 지분된 개별 기업) t : time : primary group specific effect Nested Error Component Model : nested subgroup effect : 나머지 오차항

  10. 1.4 Fixed Effects Model vs. Random Effects Model • Fixed Effect Model : , treat as fixed parameter • Random Effect Model : , treat as random variable • Fixed Effect Model의 문제점 - 추정량의 효율성이 떨어짐( 추정해야 할 모수의 수의 증가로 자유도의 손실) •  대부분의 패널자료에 대한 분석은 Random effects model을 사용

  11. 1.5 Random Effects Model의 사용시 주요고려사항 • 분산-공분산행렬: • 예) Balanced Two-way Random Effect Model의 분산-공분산 행렬 •  Estimation, Testing에 새로운 접근이 필요 • 1.6 Random Effect Model의 주요 해결사항 • - 회귀계수와 분산성분의 추정 • - 분산성분의 존재유무에 대한 가설검정

  12. 2. 회귀계수와 분산성분의 추정 • OLS estimate : Inefficiency • GLS(Generalized Least Squares) : Theoretical • Feasible GLS : 2단계 추정법 1) 분산성분의 추정(ANOVA type) 2) 추정된 분산성분을 이용하여 회귀계수의 추정 • Maximum Likelihood(ML) type 추정량: ML, REML

  13. 2.1 Model : Two-way Error Component Model • 행렬형태로 표현 • 분산-공분산 행렬

  14. 2.2 회귀계수와 분산성분의 추정 1) OLS 추정량 • 분산성분의 존재를 무시함으로 inefficiency • 특히 추정량의 표준오차가 biased되는 문제가 발생 2) GLS 추정량 분산성분 , , 이 알려졌다는 가정하에서 구함  이론적인 추정량 (실제 자료에서는 이들 분산성분의 값이 알려져 있지 않음)

  15. 3) WTN 추정량 오차성분 , 가 Fixed Effect라는 가정하에서 구하는 회귀계수 추정방법 • 비교적 간편하게 계산되지만 , 가 Random Effect라면효율성이 떨어지는 추정량

  16. 4) FGLS 추정법 (2단계 추정법) • - ANOVA 방법을 이용한 2단계 추정법 • step 1. 분산성분의 추정(ANOVA type) • - equate quadratic sums of squares to their expectations, • estimate variance components • step 2. 추정된 분산성분을 이용하여 회귀계수의 재추정

  17. Step 1에서 분산성분에 대한 추정방법에 따라 4가지 형태의 ANOVA 추정량을 고려 - WH(Wallace and Hussian) : OLS Residual을 이용 - Amemiya : Within Residual을 이용 - SW(Swamy and Arora) : 3개의 regression 이용 (WTN model, Time model, Individual model) - FUBA(Fuller and Battese) : Henderson 3 방법 사용 …

  18. 2) ML추정 • Log-likelihood Function •  , , , 에 대한 closed form solution은 • 존재하지 않음 •  반복에 의한 수치적인 방법으로 구해야 함. •  Fisher의 scoring method가 사용 됨.

  19. 3) REML추정 • 분산성분에 대한 ML추정량 : Fixed Parameter로 인하여 발생하는 자유도의 손실을 보정하지 않음. • Patterson and Thompson (1971) : • REML estimator based on a transformation that partitions the • likelihood function into two parts. • A’Y is free from regression parameters • Maximize this part  REML estimator of variance component • Numerical Method : Fisher’s scoring method

  20. 2.3 회귀계수의 추정 (Grunfeld 투자함수 Data) - Twoway error component model

  21. 2.4 모의실험 • Model : Simple Linear Regression Model • Data Generating Method (a) Independent variable : Nerlove(1971) (b) Error term : - Fixing : - =(0,0.2,0.4,0.6,0.8)

  22. Comparison of Regression Coefficients (각 추정량의 MSE/ GLS의 MSE) • 회귀계수 추정에 있어서 Feasible GLS나 ML type추정량의 효율성에 차이를 보이지 않음.  계산이 간편한 ANOVA type의 Feasible GLS를 사용하는 것이 효율적임.

  23. Comparison of variance Components (각 추정량의 MSE/ MLE의 MSE) • ML 추정량의 효율이 가장 좋음 • REML 추정량의 효율이 그 다음으로 좋음 • ANOVA 추정량의 효율은 떨어짐

  24. 2.5 추정의 결론 • Focusing on the estimates of the variance components, • - The computationally more demanding MLE and REML estimators • are recommended. • Focusing on the regression coefficients estimates, • - The ANOVA methods do not require normality assumptions • which are necessary to the ML type estimators. • - The simple ANOVA methods perform just as well as the • computationally demanding MLE and REML methods.

  25. 3. 분산성분의 존재유무에 대한 가설검정 • 만일 이라면 (individual effect와 time effect가 존재하지 않는다면)  추정이 간편한 OLS 방법에 의해 회귀계수에 대한 추정 • 만일 또는 이라면 (둘 중 하나의 effect만 존재한다면)  Twoway error component model보다는 Oneway error Component model을 이용하는 것이 좋을 것이다.

  26. 고려 가능한 가설 a) : joint test : conditional test b) : marginal test c) • 사용가능한 가설검정 a) LR(Likelihood Ratio) Test • b) LM(Lagrange Multiplier) type Test • - H0 하에서의 정보만을 이용하므로 계산이 간편 •  Error Component Model에서 가설검정에 주로 사용

  27. LM Test Statistic : H0하에서 계산된 각 모수에 대한 스코어 벡터 : H0하에서 계산된 정보행렬(Information matrix)

  28. 3.1 Conditional Test ( ) • LM and LR test statistic Under

  29. 3.2 모의실험 결과 - gamma1 : gamma2 : - Marginal Test : 으로 가정 - Conditional Test : 으로 가정 (1,000번 반복, 명목유의수준 0.05)

  30. 모의실험 결과 • Marginal test(LM, LR)의 추정된 유의수준은 이 커질수록 작아져, • 명목유의수준을 유지하지 못함 • Conditional test(LM, LR)는 명목유의수준을 제대로 유지함 • LM test의 검정력이 LR test보다 높게 나타남 3.3 가설검정 결론 • 만일 개체효과를 검정할 시 시간효과가 존재할 가능성이 있는 경우, • 이를 무시하는 Marginal test보다는 이를 조절하는 Conditional test의 • 사용이 바람직하다. • 2) 계산이 간편한 LM검정이 계산이 복잡한 LR검정에 비하여 효율적이다.

  31. 4. 모형의 확장 • (1) Heteroskedasticity and Serial Correlation • One-way random effects model • (a) Heteroskedasticity : • Testing for  LM test • Estimation for  Feasible GLS or ML • (b) Aotocorrelation : • Testing for  LM test • Estimation for  Feasible GLS or ML

  32. (2) Dynamic Panel Data Regression Model • 오차항과 설명변수가 correlate •  Instrumental Variable (IV) techque or GMM estimation method • Reference • - Arrelano and Bond (1991), Arrelano and Bover (1991), • Ahn and Schmidt (1993) and Keane and Runkle (1992), …

  33. (3) Panel Count Data regression Model – Poisson and NB i =1,…,N : 개체, t =1,…,T : 시간 : Individual Specific effect • Panel Count Data regression Model • Fixed Effect Model • Random Effect Model  Zero-inflated Poisson Panel regression Model

  34. Panel Count Data regression Model의 주요 참고문헌 • Hausman, et al.(1984, 1986) – Poisson and NB (Fixed/Random) • Page (1995) – Poisson Fixed Effects Model • Blonigen(1997) – NB2 Random Effects Model • Allison and Waterman (2001) – NB2 Fixed Effects Model • Chip et al.(1998) – Poisson Random Effects Model with Gaussian Random • Effects  MCMC • Hall(2000),Yau and Lee(2001) – Zero Inflated Poisson with Random Effects • Yau, et al. (2003) – Zero Inflated NB with Random Effects • Panel Count Data regression Model의 주 연구분야 • a) Estimation (Variance components, Regression Coefficient) • EM Algorithm • Conditional ML Method • Moment Based Methods • b) Testing – Score test, LR test • 개체효과 존재여부 • Over-Dispersion

More Related