2007 겨울 통계강좌 중급과정

2007 겨울 통계강좌 중급과정 제8강 중다회귀분석의 실제

▣ 중다회귀분석의 종류에 따른 분석의 차이 : • 표준회귀분석은 한꺼번에 변수 투입 -> 모든 개별 독립변인의 설명변량을 다 합해도 전체 R2의 값과 • 같아 지지 않는다. • 위계적 회귀분석은 연구자가 변인 투입의 순서를 정해준 방식대로(모형대로) 투입 • 단계적 회귀분석은 컴퓨터의 계산에 의해 가장 설명력 높은 변수부터 투입

중다회귀분석의 기본가정 1 • 분석에 활용할 사례 수는 모형에 투입되는 독립변인 개수의 20배 이상이어야 한다(일반적으로) • 응답이 적을 경우 오차변량이 증대되므로 일정이상의 샘플이 필요 • 분석을 위한 최소조건으로 샘플 수는 독립변인의 5배는 확보 • 종속변인의 분포가 편포 되어 있는 경우는 더 많은 샘플이 필요(잔차의 정상성에 영향을 미침) • 스텝와이즈 방식을 적용시키기 위해서는 1:40을 확보 • 그러나 사례 수 많을 경우는 변인간의 중다상관의 증가로 인해 정확한 측정이 어려울 수 있다. 따라서 이럴 경우는 해당 개별 독립변인의 통계적 유의도와 R2의 변화량을 반드시 체크해야 한다. 만일 변화량이 적은데도 불구하고 통계적 유의도가 있다면 효과가 과대평가된 것이므로 해석에 주의 • 따라서 덜 중요한 독립변인은 제거, 독립변인의 조합을 통한 독립변인수의 축소, 또는 회귀모델을 설정하여 모델간 비교를 통해 교차타당도 획득이 필요하다

중다회귀분석의 기본가정 2 • ▣ 반응이나 응답의 극단치는 반드시 잡아야 한다 • 극단치는 제외시키거나 극단치를 포함한 변인을 제외하거나 점수분포가 정상성을 • 이루도록 연구자의 적극적인 자료변환이 필요 • [극단치 파악방법] • ① 그래픽적 방법 :독립과 종속변인간의 산포도, 예측치와 관측치 간의 정상확률 • 플랏, 잔차 플랏을 통해 파악 • ② 마할라노비스의 거리 : • [단순회귀] 독립변인의 평균으로부터 각 사례가 떨어진 거리를 표준화 한 값 • [중다회귀] 변인들의 선형조합에서 각 사례가 떨어진 거리를 계산 • ③ 쿡의 거리 :종속변인의 예측에 있어서 영향을 주는 사례를 의미 -> • 영향이 있다고 생각되는 사례를 제거하였을 때의 잔차의 변화를 • 보여주기에 유용한 측정치 => 1보다 크면 극단치의 가능성 있다고 • 판단하며, 유의도 값 제시됨 • ④ 기타 방법 : 레버리지 값(특정사례가 회귀의 예측에 영향을 주는가를 알 수 있는 • 지수) 활용, 표준화된 잔차 의 값 분석[표준화된 잔차의 크기가 클 때 • 극단치로 판단), 변량-공변량 행렬을 통해 계산 되는 공변량비 활용 • (공변량 비율이 1에 가깝다는 것은 예측에 있어 그 사례가 제거되어도 • 행렬식이 변하지 않음, 즉 예측에 큰 영향을 주지 않는다는 의미) 등

중다회귀분석의 기본가정 2 실습 실제사례 : regr_2.sav -> open / 성별, 연령, 월소득, 구매액에 따른 골프채 판매량 파악 • 1단계 : 종속변인에 대한 히스토그램과 예측된 닶과 잔차에 대한 산포도 살피고 각 사례에 대한 • CASEWISE 플랏을 통해 표준점수(Z) +/- 3.0의 범위를 벗어난 사례를 파악 • => 대체로 잔차의 크기가 크면 극단치의 가능성이 높다 • 2단계 : 마할라노비스와 쿡의거리 값이 큰 사례를 파악한다. 단 잔차가 적더라도 이 두값이 크면 • 극단치로 판단(부가적으로 레버리지나 공변량비 검토) • 3단계 극단치로 판단되는 사례 분석 제외 후 분석 수행하여 극단치가 포함된 사례와 비교 Instruction step 1 : 극단치 1.spo 참조 Analyze -> Regression -> 독립(소득) 종속(판매량) 변수투입 -> 단순선형회귀 Instruction step 2 : 극단치 1.spo 참조 기본 단순선형 회귀분석을 돌려서 수행하되 주로 plot의 명령어를 이용 히스토그램과 예측된 값과 잔차의 산포도 선택 및 각 사례에 대한 casewise 플랏과 종속변인에 대한 관찰치와 잔차(*RESID) 표준화된 잔차(*SRESID)및 각사례가 제거되었을 때의 잔차 (*DRESID)를 표시할 수 있다.

중다회귀분석의 기본가정 2 실습 이 때의 syntax REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT puchase /METHOD=ENTER income /PARTIALPLOT ALL /SCATTERPLOT=(*ZPRED ,*ZRESID ) (*SRESID ,*SDRESID ) /RESIDUALS HIST(ZRESID) NORM(ZRESID) /CASEWISE PLOT(ZRESID) ALL /SAVE MAHAL COOK LEVER . Instruction step 3 : 직접 비교 극단치로 판단되는 자료를 제거 한 후 다시 한번 회귀분석을 돌려 제거하기 전과 모델부터 시작해 모든 데이터를 검증해 비교해 보시오

중다회귀분석의 기본가정 3 • 잔차의 정상성, 성형성, 동변량성 및 독립성을 만족시켜라 ① 잔차[residual : 관찰된 종속변인(Y)과 예측된 종속변인(Y’) 간의 차이]가 종속변인의 점수에 대해 정상분포를 하여야 하고(정상성) ② 잔차는 예측된 종속변인의 점수와 직선적 관계를 가져야 하며(선형성) ③ 예측된 종속변인 점수의 잔차는 모든 예측변인에 대해 동일해야 한다(동변량성 또는 등분산성) • 앞서 실습사례에서 본것 처럼 극단치 탐지하기 위한 예측된 값(Y’)과 잔차의 산포도를 통해 점검이 가능 • 따라서 앞서 본것 처럼 분포된 점들이 표준점수 0을 중심으로 직사각형의 분포를 이루게 된다. • 결국 한쪽으로 몰리거나 퍼지거나 하는 특정한 패턴을 가진 분포를 가지면 정상분포를 가질 수 있도록 자료의 적절한 변환이 필요하다(양병화 선생 책 66 참조)

중다회귀분석의 기본가정 4 • 독립변인간의 상관을 체크(다중공선성)문제 • 다중공선성이 있으면 해석에 결정적 오류가 발생하기에 반드시 진단하고 이것이 없는 결과가 도출되어야 한다. 특히 다중공선성이 있을 경우는 변인의 투입순서에 따라 종속변인을 설명하는 변량에 커다란 차이가 발생 -> 따라서 독립변인의 중다상관이 존재하는지를 파악하는 것은 분석된 결과에 대해 잘못된 결론을 내리지 않기 위한 사전준비이다. 가장 큰 문제라고 할 수 있다. • 진단 1 : 독립변인의 기초상관행렬(상관계수)를 통해 변인간 대략적인 관계성을 통찰 • 할 수 있는 방법 • 진단 2 : 특정 변인의 표준오차의 크기를 의미하는 공차(tolerance)를 살펴 1에 • 가까운 값이면 다중공선성이 없는 것으로 판단한다 • 진단 3 : 공차에 역수를 취해서 계산하는 각 변인의 상승변량(VIF)을 살펴 5 이상의 • 값이 나오면 다중공선성이 있는 것으로 판단 • 기타 : 상적행렬의 고유치(아이겐 밸류) 비교 등 • 만일 다중공선성이 있을 경우는 연구자의 판단에 따라 변인제거나 회귀모형의 검증을 • 통한 교차타당도 획득 이외에는 방법이 없다. 즉 사기치지 말고 새로 써라…

중다회귀분석의 실행 1 ▣회귀분석의 Linear를 선택한 후 옵션 설정 및 지수를 조정하여 Run 실제사례 : regr_3.sav -> open / 중다회귀1.SPO / SYNTAX * 외모평가, 유머능력, 성격, 지능에 따라 대인매력의 정도를 파악할 수 있는가? 광고모델 선정을 위해 => 표준중다회귀분석, 위계적 중다회귀분석, 단계적 중다회귀분석 순으로 돌림 ① 표준중다회귀분석은 독립변인이 회귀식에 동시에 투입되는 특징을 가짐 => 각 독립변인들은 종속 변인을 설명하는 방식에서 다른 독립변인과 공통으로 설명하는 부분(공통변량)을 제외하고 각각의 고유한 기여정도(고유기여도) 만으로 설명변량을 갖게 된다. ② 위계적 중다회귀분석은 투입되는 독립변인의 순서가 연구자에 의해 생성되기에 이는 연구자가 경험적 근거(선행연구의 이론적 혹은 논리적 근거)를 바탕으로 정하는 것이 일반적이다. 따라서 회귀식은 독립변인이 하나씩 첨가되면서 구성되고 하나씩 첨가될 때의 회귀모형을 평가한다. 즉, 모델 1) 매력 = 외모평가 모델 2) 매력 = 외모평가+유머능력 모델 3) 매력 = 외모평가+유머능력+성격 모델 4) 매력 = 외모평가+유머능력+성격+지능, ③ 단계적 중다회귀분석은 회귀모형의 설명량(R2)이나 개별 독립변인의 상대적기여도(β계수, R2변화량, 각 유의도 검증)에 대한 평가는 위계적 회귀분석과 동일하나, 결정적 차이는 위계적 회귀분석에서는 회귀모형을 오로지 통계적 계산에 기초하여 컴퓨터가 투입될 순서를 정하는 것이다.

중다회귀분석의 해석 1 ▣ ① 기술통계치 출력 : 각 변수에 대한 평균, 표준편차, 사례수 등이 출력 ② 상관관계계수 출력 : 독립변인과 종속변인간의 상관관계계수를 구한 후 이를 이용, 변량 분석실시 ③ 회귀모델의 변량분석 : 독립변인간의 상관관계가 존재하지 않을 경우 : 앞서 3)의 각 독립 변인과 종속변인의 상관관계계수(r)를 자승한 값을 구해서 합하면(개별 설명변량을 합하면) 독립변인의 설명변량인 R2값이 된다. 이렇게 합한 R2값은 연구자가 알고 싶어하는 독립변수들을 통한 종속변수를 설명하는 양, 즉 설명변량의 총량이 된다. ▣ 독립변인간의 상관관계가 존재할 때 회귀모델의 유의도 검증 : 회귀분석의 변량분석이 끝난 후 도출되는 회귀모델의 유의도 검증은 아노바 테이블을 활용한다. 따라서 F값을 활용하며 이 F값은 선형회귀분석의 아노바 테이블의 설명변량을 의미하는 선형회귀분석의 평균제곱(Mean Square)값을 설명할 수 없는 변량인 잔차의 평균제곱(Mean Square) 값으로 나눈 값이다. 이때 유의도를 참조하여 연구가설에 따른 회귀모형이 적합한지를 검증한다. 단 주의할 점은 다중회귀의 유의도 검증은 변인간의 관계가 있는지 없는지 만을 판단해 주기 때문에 변인간의 관계가 정적인지 부적인 관계인지는 알지 못하고 이를 알기 위해서는 개별 회귀계수의 유의도를 검증해야 만 가능하다.

중다회귀분석의 해석 2 • ▣ 회귀모델의 변량분석: • 개별 독립변인과 종속변인과의 상관관계를 제곱해서 합하면 안됨. • 왜냐면 독립변인간의 겹치는 설명변량 때문이다(즉, 이렇게 해석하면 과도하게 오버하는 • 해석이 될 수 있다.). 따라서 이 경우는 개별 독립변인과 종속변인간의 상관관계를 제곱해 • 서 모두 합한 값에서 독립변인과 독립변인간의 상관관계 값을 제곱한 값을 추가로 빼줘야 • 지만 정확한 설명변량을 구해낼 수 있는 것이다. • 또한 다중회귀분석에서의 Multiple R값은 여러 개의 독립변인을 합하여 이것을 하나의 • 독립변인으로 취급, 종속변인과의 상관관계계수를 구한 값의 절대값이다. 설명변량 R2값 • 은 이 Multiple R값을 자승(제곱)한 값이다. 반대로 설명변량 R2값을 제곱근(√ 를 씌운값) • 한 값이다. • ▣ 회귀계수의 유의도 검증: • ① 중다회귀분석에서 회귀선과 회귀계수 구하기 : • Y= 비표준화 회귀계수의 상수 + (비표준화 회귀계수 독립변수1 * X1)+ • (비표준화 회귀계수 독립변수2 * X2) • Y’= 표준화 회귀계수의 상수 + (표준화 회귀계수 독립변수1 * X1’) + • (표준화 회귀계수 독립변수2 * X2’) • 이렇게 회귀계수의 유의도를 검증하는 이유는 회귀분석이 제대로 이뤄졌는지 확인하기 위한 재검증 과정이자 본인의 연구모델이 적합한지에 대한 검증 절차이며, 더 나아가 연구에 따른 모델을 통해 회귀분석 본연의 임무인 현상에 대한 예측이 가능한지를 알기 위함이다. • 모수치 추정 :신뢰구간은 표본연구에서 얻은 비표준 회귀계수로부터 95% • 확률을 가진 모수치의 최소값과 최대값을 말한다.

2007 겨울 통계강좌 중급과정