460 likes | 788 Views
SPSS Statistical Package for Social Sciences. 제 9 강 회귀분석. 회귀 분석. 회귀 분석 독립변수와 종속변수간의 관계를 검증하여 독립변수가 종속 변수에 미치는 영향력을 알아봄 독립변수의 변화에 따라 종속 변수의 변화를 예측하기 위해서 사용. 회귀 분석. 변수 독립변수 ( 설명변수 , 예측변수 ) : 다른 변수에 영향을 주는 변수 종속변수 ( 영향변수 , 피설명변수 , 준거변수 ) : 영향을 받는 변수. 회귀 분석. 상관 변수와의 차이점
E N D
회귀 분석 • 회귀 분석 • 독립변수와 종속변수간의 관계를 검증하여 독립변수가 종속 변수에 미치는 영향력을 알아봄 • 독립변수의 변화에 따라 종속 변수의 변화를 예측하기 위해서 사용
회귀 분석 • 변수 • 독립변수 (설명변수, 예측변수) : 다른 변수에 영향을 주는 변수 • 종속변수 (영향변수, 피설명변수, 준거변수) : 영향을 받는 변수
회귀 분석 • 상관 변수와의 차이점 • 상관 변수 : 단순히 두 변수 사이의 상관 관계 정도만 분석 • 회귀 분석 : 두 변수 사이의 인과 관계를 알 수 있고, 이를 통해 한 변수로부터 다른 변수의 변화를 예측할 수 있는 통계적 분석 방법
회귀 분석 • 종류 • 단순 회귀 분석 • 독립 변수와 종속 변수가 각각 하나 • 중회귀분석 • 하나의 종속변수가 여러 개의 독립변수에 영향을 받을때
회귀 분석 • 단순 회귀 모형
회귀 분석 • 기본 가정 • 두 변수간의 관계가 직선 관계 (산점도로 확인 가능) • 오차의 분포는 정규 분포 • 오차들 간에 독립성 • 종속변수의 흩어진 정도가 같음
회귀 분석 • 예 • 모의고사 시험성적은 수능 성적에 어떤 영향을 미치는가?(단순 회귀 분석) • 지능은 학업 성취도에 어떤 영향을 미치는가?(단순 회귀 분석) • 인구, 공장수, 소득의 정도가 토지 오염도에 어떤 영향을 미치는가?(중회귀 분석)
회귀 분석 • 방법 • 전진 • 등록된 변수를 통계적 기준에 따라 가장 중요한 변수부터 선택하여 더 이상 중요한 변수가 없다고 판단될 때 중단 (변수를 하나씩 추가해 가는 방법) • 일단 선택된 변수는 다른 변수에 의해 중요성이 상실되더라도 회귀모형에서 빠져 나올 수 없음 • 제거 • 모형 설정 후 사용 가능 • 모형에서 변수 제거
회귀 분석 • 방법 • 후진 • 등록된 모든 독립변수를 포함하여 통계적 기준에 따라 중요도가 낮은 변수부터 한 변수씩 제거해나가는 방법 더 이상 제거시킬 필요가 없을 때 중단 • 남아있는 변수들을 중요한 변수로 선택
회귀 분석 • 방법 • 입력 • 독립변수들의 강제 투입, 지정해준 변수 그대로 다 넣은 상태에서 모형 만듬 • 단계선택 • 전진 선택법과 후진 선택법을 개선한 방법 • 독립변수의 추가와 제거를 적절히 조합하여 변수를 선택하는 방법 • 가장 많이 사용하는 방법
회귀 분석 • 통계량 • 결정 계수 • 모형의 설명력 • 즉, 독립변수들이 Y값을 얼마나 잘 설명해주는가를 나타내는 척도 • 결정계수 값이 1에 가까울수록 설명력이 좋음0에 가까울수록 설명력이 떨어지는 것 • 결정계수에 대한 검정방법은 없으므로 적합성에 대해 설명하는 것은 위험 단지 독립변수들의 설명력으로만 해석 적합성은 F검정으로
회귀 분석 • 베타계수 • 독립변수들이 종속변수에 주는 영향력을 비교하기 위해 회귀계수를 직접 비교하는 것은 위험 (회귀계수의 크기가 독립변수들의 측정단위에 크게 영향을 미치기 때문) • 측정단위에 관계없는 회귀계수 필요 • 표준화 변환 후 회귀 모형 추정시 이때의 회귀계수를 표준화 계수 혹은 베타계수 • 독립 변수들간에 관련성이 낮을경우 상대적인 중요도
회귀 분석 • 회귀계수 • 공선성 통계량 • 독립변수들 간에 상관관계가 높으면 하나의 변수가 투입이 되며 나머지 변수들이 갖는 고유한 설명력은 매우 작아짐 • VIF = 1/공차한계 • 공차한계<0.1 이거나 VIF>10 이면 공선성이 존재
회귀 분석 • 다중 공선성 • 설명변수 사이에 정확한 선형관계는 아니나 상관관계가 매우 높은 경우 • 상관관계가 클수록 회귀분산이 커지고, 분산이 커지면 회귀계수 추정량에 대한 t-통계량값이 작아져서 유의성이 낮게 나타남 • 해결책 • 설명변수의 제외 • 모형의 재설정 • 사전정보이용 • 표본자료의 추가
회귀 분석 • 단순 회귀분석 • 과정 => 분석 => 회귀분석 => 선형 • 근무 개월 수에 따른 현재 급여 • 독립 변수 => 근무 개월 • 종속 변수 => 현재급여
회귀 분석 • 결과 • 방법 – 입력 • 모형의 값이 0.000이므로 모형의 설명력이 없다.
회귀 분석 • 결과 • F=0.001이고, 유의확률=0.972로 모형이 유의하지 않음 • 따라서 현 근무월수가 현재급여를 설명하지 못함
회귀 분석 • 중회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 입력 • 추정값, 모형 적합
회귀 분석 • 결과 • 진입된 변수 : 입력한 변수 모두 • 제거된 변수 : 방법이 입력이므로 없음 • 결정계수 값이 0.854, 수정된 값이 0.849 => 현재 모형의 설명력 85.4%
회귀 분석 • 결과 • F값은 175.446, 유의확률(P<0.001)이 유의수준 0.05보다 작으므로 현재 모형이 타당 • 현재 급여에 대한 입사전 타근무월수, 최초급여, 현 근무월수 모형이 의미가 있다.
회귀 분석 • 결과 • 최초급여 t=22.911, p<0.001 유의한 변수=> B=2.137로서 최초급여가 증가할수록 현재급여 증가 • 현 근무월수 t=0.495, p=0.622 유의하지 않은 변수 (현재급여에 영향을 미치지 않는다고 보여짐) • 입사전 타 근무월수(경력) t=22.911, p<0.001 유의한 변수=> B=-2.954로서 경력이 증가할수록 현재급여 감소
회귀 분석 • 다중공선성 진단 • 독립변수들간의 관련성 여부
회귀 분석 • 다중공선성 진단 • 최초급여, 현근무월수, 타 근무월수들의 VIF 값이 1에 가까우므로 변수들간의 다중공선성 문제는 보이지 않음
회귀 분석 • 결론 • 현 근무월수를 포함시키는 경우 최종모형 • 현 근무월수를 포함시키지 않는 경우에는 다시 모형 적합
회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 제거
회귀 분석 • 결과 • 모형 1 • 모든변수 입력 • 설명력 85.4% • 모형 2 • 현근무월수 제거 • 설명력 85.4%
회귀 분석 • 결과 • 두개의 모형 유의 • 근무월수를 제외한 나머지 변수들 유의
회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 단계선택 • 추정값, 모형 적합, 공선선 진단 선택
회귀 분석 • 결과 • 모형선택 • 최초급여 변수 선택 • 타근무월수 변수 선택 • 최종 모형 • 결정계수 : 0.854 • 수정된 R제곱 : 0.850 • 현 모형의 설명력 85%
회귀 분석 • 결과 • 모형 1 • F=477.808, P<0.000 => 모형 유의미 • 모형 2 • F=265.246, P<0.000 => 모형 유의미
회귀 분석 • 결과 • 모형 1 • 최초급여 t=21.859, P<0.001 => 변수 유의미 • B=2.111 => 최초급여가 1 증가 하면 현재급여 2.111 증가 • 모형 2 • 최초급여 t=23.005, P<0.001 => 변수 유의미 • B=2.135 => 최초급여가 1 증가 하면 현재급여 2.111 증가 • 타근무월수 t=-3.057, P=0.003 => 변수 유의미 • B=-2.855 => 타근무월수가 1 증가 하면 현재급여 2.855 감소
회귀 분석 • 결과 • VIF값이 10보다 작고 공차 한계(Tolerance)도 0.1 보다 크므로 다중 공선성의 문제는 존재하지 않음
회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 후진 • 추정값, 모형 적합, 공선성 진단 선택
회귀 분석 • 결과 • 방법 – 후진 • 첫번째 모형 • 모든 변수 모두 입력 • 두번째 모형 • 현근무월수 제거
회귀 분석 • 결과 • 모형 1 • 결정계수 : 0.854, 수정된 결정계수 : 0.849 • 모형의 설명력 : 85% • 모형 2 • 결정계수 : 0.854, 수정된 결정계수 : 0.850 • 모형의 설명력 : 85%
회귀 분석 • 결과 • 모형 1 • F=175.446, P<0.001 => 모형 유의미 • 모형 2 • F=265.246, P<0.001 => 모형 유의미
회귀 분석 • 결과 • 모형 1 • 현근무월수 유의하지 않음 • 모형 2 • 최초급여와 타근무월수 변수 유의
회귀 분석 • 다중 회귀 분석=>분석=>회귀분석=>선형 • 입력방법 : 전진 • 추정값, 모형 적합, 공선선 진단 선택
회귀 분석 • 결과 • 방법 – 전진 • 모형선택 • 최초급여 변수 선택 • 타근무월수 변수 선택 • 모형 설명력 • 모형 1 : 83.9% • 모형 1 : 85.4%
회귀 분석 • 결과 • 모형 유의
회귀 분석 • 결과 • 계수 유의 • 다중공선성의 문제 보이지 않음
회귀 분석 • 명목, 순서 척도의 독립변수를 사용 • 원칙적으로는 구간, 비율척도 • 범주형 변수들을 독립변수로 넣고자 할때는 더미변수(가변수)로 변환 • 더미변수의 개수 = 범주의 개수 -1 • 더미변수 만드는 방법 • 세 개의 구간 (상, 중, 하)으로 이루어져 있을 때 범주의 개수가 3개이므로 더미변수 2개가 생성 • 상은 00, 중은 10, 하는 01 로 코딩
예 제 • 데이터 : 예제 4 • 변환 및 분석 • 성별 -> 더미변수 처리 • 직종 -> 더미변수 처리 • 생년 월일 -> 나이변수 생성 • 변수계산 : 나이 = 2007 – XDATE.YEAR(생년월일) • 현재 급여에 미치는 영향 • 독립변수 : 성별, 직종, 나이, 소수민족여부, 최초급여, 현근무월수, 타근무월수 • 종속변수 : 현재급여 • 여러가지 모형방법을 실행한 후 최종모형 선택하여 해석