1 / 44

SPSS Statistical Package for Social Sciences

SPSS Statistical Package for Social Sciences. 제 9 강 회귀분석. 회귀 분석. 회귀 분석 독립변수와 종속변수간의 관계를 검증하여 독립변수가 종속 변수에 미치는 영향력을 알아봄 독립변수의 변화에 따라 종속 변수의 변화를 예측하기 위해서 사용. 회귀 분석. 변수 독립변수 ( 설명변수 , 예측변수 ) : 다른 변수에 영향을 주는 변수 종속변수 ( 영향변수 , 피설명변수 , 준거변수 ) : 영향을 받는 변수. 회귀 분석. 상관 변수와의 차이점

Download Presentation

SPSS Statistical Package for Social Sciences

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SPSSStatistical Package for Social Sciences 제 9강 회귀분석

  2. 회귀 분석 • 회귀 분석 • 독립변수와 종속변수간의 관계를 검증하여 독립변수가 종속 변수에 미치는 영향력을 알아봄 • 독립변수의 변화에 따라 종속 변수의 변화를 예측하기 위해서 사용

  3. 회귀 분석 • 변수 • 독립변수 (설명변수, 예측변수) : 다른 변수에 영향을 주는 변수 • 종속변수 (영향변수, 피설명변수, 준거변수) : 영향을 받는 변수

  4. 회귀 분석 • 상관 변수와의 차이점 • 상관 변수 : 단순히 두 변수 사이의 상관 관계 정도만 분석 • 회귀 분석 : 두 변수 사이의 인과 관계를 알 수 있고, 이를 통해 한 변수로부터 다른 변수의 변화를 예측할 수 있는 통계적 분석 방법

  5. 회귀 분석 • 종류 • 단순 회귀 분석 • 독립 변수와 종속 변수가 각각 하나 • 중회귀분석 • 하나의 종속변수가 여러 개의 독립변수에 영향을 받을때

  6. 회귀 분석 • 단순 회귀 모형

  7. 회귀 분석 • 기본 가정 • 두 변수간의 관계가 직선 관계 (산점도로 확인 가능) • 오차의 분포는 정규 분포 • 오차들 간에 독립성 • 종속변수의 흩어진 정도가 같음

  8. 회귀 분석 • 예 • 모의고사 시험성적은 수능 성적에 어떤 영향을 미치는가?(단순 회귀 분석) • 지능은 학업 성취도에 어떤 영향을 미치는가?(단순 회귀 분석) • 인구, 공장수, 소득의 정도가 토지 오염도에 어떤 영향을 미치는가?(중회귀 분석)

  9. 회귀 분석 • 방법 • 전진 • 등록된 변수를 통계적 기준에 따라 가장 중요한 변수부터 선택하여 더 이상 중요한 변수가 없다고 판단될 때 중단 (변수를 하나씩 추가해 가는 방법) • 일단 선택된 변수는 다른 변수에 의해 중요성이 상실되더라도 회귀모형에서 빠져 나올 수 없음 • 제거 • 모형 설정 후 사용 가능 • 모형에서 변수 제거

  10. 회귀 분석 • 방법 • 후진 • 등록된 모든 독립변수를 포함하여 통계적 기준에 따라 중요도가 낮은 변수부터 한 변수씩 제거해나가는 방법 더 이상 제거시킬 필요가 없을 때 중단 • 남아있는 변수들을 중요한 변수로 선택

  11. 회귀 분석 • 방법 • 입력 • 독립변수들의 강제 투입, 지정해준 변수 그대로 다 넣은 상태에서 모형 만듬 • 단계선택 • 전진 선택법과 후진 선택법을 개선한 방법 • 독립변수의 추가와 제거를 적절히 조합하여 변수를 선택하는 방법 • 가장 많이 사용하는 방법

  12. 회귀 분석 • 통계량 • 결정 계수 • 모형의 설명력 • 즉, 독립변수들이 Y값을 얼마나 잘 설명해주는가를 나타내는 척도 • 결정계수 값이 1에 가까울수록 설명력이 좋음0에 가까울수록 설명력이 떨어지는 것 • 결정계수에 대한 검정방법은 없으므로 적합성에 대해 설명하는 것은 위험 단지 독립변수들의 설명력으로만 해석 적합성은 F검정으로

  13. 회귀 분석 • 베타계수 • 독립변수들이 종속변수에 주는 영향력을 비교하기 위해 회귀계수를 직접 비교하는 것은 위험 (회귀계수의 크기가 독립변수들의 측정단위에 크게 영향을 미치기 때문) • 측정단위에 관계없는 회귀계수 필요 • 표준화 변환 후 회귀 모형 추정시 이때의 회귀계수를 표준화 계수 혹은 베타계수 • 독립 변수들간에 관련성이 낮을경우 상대적인 중요도

  14. 회귀 분석 • 회귀계수 • 공선성 통계량 • 독립변수들 간에 상관관계가 높으면 하나의 변수가 투입이 되며 나머지 변수들이 갖는 고유한 설명력은 매우 작아짐 • VIF = 1/공차한계 • 공차한계<0.1 이거나 VIF>10 이면 공선성이 존재

  15. 회귀 분석 • 다중 공선성 • 설명변수 사이에 정확한 선형관계는 아니나 상관관계가 매우 높은 경우 • 상관관계가 클수록 회귀분산이 커지고, 분산이 커지면 회귀계수 추정량에 대한 t-통계량값이 작아져서 유의성이 낮게 나타남 • 해결책 • 설명변수의 제외 • 모형의 재설정 • 사전정보이용 • 표본자료의 추가

  16. 회귀 분석 • 단순 회귀분석 • 과정 => 분석 => 회귀분석 => 선형 • 근무 개월 수에 따른 현재 급여 • 독립 변수 => 근무 개월 • 종속 변수 => 현재급여

  17. 회귀 분석 • 결과 • 방법 – 입력 • 모형의 값이 0.000이므로 모형의 설명력이 없다.

  18. 회귀 분석 • 결과 • F=0.001이고, 유의확률=0.972로 모형이 유의하지 않음 • 따라서 현 근무월수가 현재급여를 설명하지 못함

  19. 회귀 분석 • 중회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 입력 • 추정값, 모형 적합

  20. 회귀 분석 • 결과 • 진입된 변수 : 입력한 변수 모두 • 제거된 변수 : 방법이 입력이므로 없음 • 결정계수 값이 0.854, 수정된 값이 0.849 => 현재 모형의 설명력 85.4%

  21. 회귀 분석 • 결과 • F값은 175.446, 유의확률(P<0.001)이 유의수준 0.05보다 작으므로 현재 모형이 타당 • 현재 급여에 대한 입사전 타근무월수, 최초급여, 현 근무월수 모형이 의미가 있다.

  22. 회귀 분석 • 결과 • 최초급여 t=22.911, p<0.001 유의한 변수=> B=2.137로서 최초급여가 증가할수록 현재급여 증가 • 현 근무월수 t=0.495, p=0.622 유의하지 않은 변수 (현재급여에 영향을 미치지 않는다고 보여짐) • 입사전 타 근무월수(경력) t=22.911, p<0.001 유의한 변수=> B=-2.954로서 경력이 증가할수록 현재급여 감소

  23. 회귀 분석 • 다중공선성 진단 • 독립변수들간의 관련성 여부

  24. 회귀 분석 • 다중공선성 진단 • 최초급여, 현근무월수, 타 근무월수들의 VIF 값이 1에 가까우므로 변수들간의 다중공선성 문제는 보이지 않음

  25. 회귀 분석 • 결론 • 현 근무월수를 포함시키는 경우 최종모형 • 현 근무월수를 포함시키지 않는 경우에는 다시 모형 적합

  26. 회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 제거

  27. 회귀 분석 • 결과 • 모형 1 • 모든변수 입력 • 설명력 85.4% • 모형 2 • 현근무월수 제거 • 설명력 85.4%

  28. 회귀 분석 • 결과 • 두개의 모형 유의 • 근무월수를 제외한 나머지 변수들 유의

  29. 회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 단계선택 • 추정값, 모형 적합, 공선선 진단 선택

  30. 회귀 분석 • 결과 • 모형선택 • 최초급여 변수 선택 • 타근무월수 변수 선택 • 최종 모형 • 결정계수 : 0.854 • 수정된 R제곱 : 0.850 • 현 모형의 설명력 85%

  31. 회귀 분석 • 결과 • 모형 1 • F=477.808, P<0.000 => 모형 유의미 • 모형 2 • F=265.246, P<0.000 => 모형 유의미

  32. 회귀 분석 • 결과 • 모형 1 • 최초급여 t=21.859, P<0.001 => 변수 유의미 • B=2.111 => 최초급여가 1 증가 하면 현재급여 2.111 증가 • 모형 2 • 최초급여 t=23.005, P<0.001 => 변수 유의미 • B=2.135 => 최초급여가 1 증가 하면 현재급여 2.111 증가 • 타근무월수 t=-3.057, P=0.003 => 변수 유의미 • B=-2.855 => 타근무월수가 1 증가 하면 현재급여 2.855 감소

  33. 회귀 분석 • 결과 • VIF값이 10보다 작고 공차 한계(Tolerance)도 0.1 보다 크므로 다중 공선성의 문제는 존재하지 않음

  34. 회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 후진 • 추정값, 모형 적합, 공선성 진단 선택

  35. 회귀 분석 • 결과 • 방법 – 후진 • 첫번째 모형 • 모든 변수 모두 입력 • 두번째 모형 • 현근무월수 제거

  36. 회귀 분석 • 결과 • 모형 1 • 결정계수 : 0.854, 수정된 결정계수 : 0.849 • 모형의 설명력 : 85% • 모형 2 • 결정계수 : 0.854, 수정된 결정계수 : 0.850 • 모형의 설명력 : 85%

  37. 회귀 분석 • 결과 • 모형 1 • F=175.446, P<0.001 => 모형 유의미 • 모형 2 • F=265.246, P<0.001 => 모형 유의미

  38. 회귀 분석 • 결과 • 모형 1 • 현근무월수 유의하지 않음 • 모형 2 • 최초급여와 타근무월수 변수 유의

  39. 회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 전진 • 추정값, 모형 적합, 공선선 진단 선택

  40. 회귀 분석 • 결과 • 방법 – 전진 • 모형선택 • 최초급여 변수 선택 • 타근무월수 변수 선택 • 모형 설명력 • 모형 1 : 83.9% • 모형 1 : 85.4%

  41. 회귀 분석 • 결과 • 모형 유의

  42. 회귀 분석 • 결과 • 계수 유의 • 다중공선성의 문제 보이지 않음

  43. 회귀 분석 • 명목, 순서 척도의 독립변수를 사용 • 원칙적으로는 구간, 비율척도 • 범주형 변수들을 독립변수로 넣고자 할때는 더미변수(가변수)로 변환 • 더미변수의 개수 = 범주의 개수 -1 • 더미변수 만드는 방법 • 세 개의 구간 (상, 중, 하)으로 이루어져 있을 때 범주의 개수가 3개이므로 더미변수 2개가 생성 • 상은 00, 중은 10, 하는 01 로 코딩

  44. 예 제 • 데이터 : 예제 4 • 변환 및 분석 • 성별 -> 더미변수 처리 • 직종 -> 더미변수 처리 • 생년 월일 -> 나이변수 생성 • 변수계산 : 나이 = 2007 – XDATE.YEAR(생년월일) • 현재 급여에 미치는 영향 • 독립변수 : 성별, 직종, 나이, 소수민족여부, 최초급여, 현근무월수, 타근무월수 • 종속변수 : 현재급여 • 여러가지 모형방법을 실행한 후 최종모형 선택하여 해석

More Related