210 likes | 716 Views
상관관계. 상관관계는 인과관계의 성립을 위한 필요조건의 하나일뿐 인과관계보다는 연관성의 의미로 해석되어야한다. 상관관계 분석방법. 종류 척도 등간 . 비율 서열 명목 방법 Person Spearman 상황표 상관계수 Kendall X 2. 표본의 산포도와 상관관계. 상관계수의 종류. 단순상관계수 (simple correlation)
E N D
상관관계 상관관계는 인과관계의 성립을 위한 필요조건의 하나일뿐 인과관계보다는 연관성의 의미로 해석되어야한다.
상관관계 분석방법 종류 척도 등간.비율 서열 명목 방법 Person Spearman 상황표 상관계수 Kendall X2
상관계수의 종류 단순상관계수(simple correlation) X Y 다중상관계수(multiple correlation) X1 X2 Y X3 편상관계수(partial correlation) X1 Y X2 통제 X3 통제
상관관계분석 • [예제 10-1] • 제품의 강도와 제품에 포함된 경화제의 양을 30개 측정한 내용이다. 그래프로 표현하고 경화제의 양과 제품의 강도의 관계를 파악하라. ㅣrㅣ >= 0.8 강한 상관관계 0.6<= ㅣrㅣ <= 0.8 상관관계 꽤 있음 0.4<= ㅣrㅣ <= 0.6 상관관계 있음 0.2<=ㅣrㅣ <= 0.4 약한 상관관계 있음 ㅣrㅣ <= 0.2 상관관계 없음 • 산점도를 작성하여 본다 • [그래프] – [산점도(S)]
편상관관계 • 두변수간의상관관계에서제3의변수들이이들변수에미치는영향에대한통제가필요할때편상관관계를이용한다. • 예) 교육수준과소득관계에서연령과근무년수의영향을통제할필요가있을경우.
상황표(χ2) • ex) 최종학력(초등, 중,고대)와상표선호(A, B, C)와독립적인가?자동차사고의심각성(재산피해, 부상, 사망)과발생하는장소(도시길, 시골길, 고속도로) 가유관한지?
지역별구매상표 지역 A상표 B상표 C상표 계 서울지역 30 55 15 100 영동지역 40 60 20 120 호남지역 30 35 15 80 계 100 150 50 300
기대가치표 (Ei,j = ri cj/n ) 지역 A상표 B상표 C상표 계 서울지역 33.3 50 16.7 100 영동지역 40 60 20 120 호남지역 26.7 40 13.3 80 계 100 150 50 300
χ2 검증 • χ2 = ∑∑( Oij– Eij )2 /Eij • χ2 = (30-33.3)2 /33.3 +(55-50)2 /50 ………+(15-13.3)2 /13.3 = 2.25자유도 (3-1)x (3-1) = 4χ2 ∝=0.05 ,4 = 9.49 지역과 판매와 관련이 없다는 귀무가설을 채택한다.
회귀분석 회귀분석이란 독립변수들과 종속변수와의 선형결합관계파악 1.독립변수와 종속변수간에 상호관련성 여부를 알려 준다. 2.상관관계가 있다면 이러한 관계는 어느 정도나 되는지를 알려 준다. 3. 변수들간의 종속관계의 성격을 알려 준다.
거주기간과 태도 9 태도 6 3 2.25 4.5 9 6.75 11.25 13.5 15.75 18 거주 기간
eJ 2변량 회귀 Y YJ eJ YJ X X1 X2 X3 X4 X5
2변량 회귀 Multiple R .93608 R2 .87624 Adjusted R2 .86387 Standard Error 1.22329 ANALYSIS OF VARIANCE df Sum of Squares Mean Square Regression 1 105.95222 105.95222 Residual 10 14.96444 1.49644 F = 70.80266 Significance of F = .0000 VARIABLES IN THE EQUATION Variable b SEb Beta (ß) T Significance of T Duration .58972 .07008 .93608 8.414 .0000 (Constant) 1.07932 .74335 각변수 1.452 .1772 계수를 표준화 시킨 값
다변량 회귀분석 Multiple R .97210 R2 .94498 Adjusted R2 .93276 Standard Error .85974 ANALYSIS OF VARIANCE df Sum of Squares Mean Square Regression 2 114.26425 57.13213 Residual 9 6.65241 .73916 F = 77.29364 Significance of F = .0000 VARIABLES IN THE EQUATION Variable b SE b Beta (ß) T Significance of T Importance .28865 .08608 .31382 3.353 .0085 Duration .48108 .05895 .76363 8.160 .0000 (Constant) .33732 .56736 .595 .5668
회귀식 연습 아래의 관찰치로 회귀식을 구하고 광고시간을 40분 판매원의 수를 120명으로 하였을 때의 매출액은 얼마나 되겠는가? 광고나 판매원중 어느 것이 더 매출에 영향을 미치는가? 매출액 광고시간 판매원의 수 9700 45 130 9500 47 128 9400 40 135 9200 36 119 9000 35 124 8500 37 120 8300 32 117 7600 30 112 7300 25 115 7100 27 108
회귀분석과 다른분석과 차이 • 회귀분석과 다른 분석기법들과의 차이점을 살펴보면 다음과 같다. 1.단순회귀분석은 2변수의 상관관계분석과 동일한 결과를 가져온다. 2.판별분석도 현상의 설명 및 예측목적을 위해 이용되어지는 기법으로 분석의 목적이나 독립변수의 성격은 같으나 종속변수가 명목척도라는 점에서 차이가 있다. 3.분산분석(ANOVA)은 이와는 반대로 독립변수가 명목척도라는 점에서 회귀분석과 차이가 난다. 4.요인분석이나 군집분석은 변수들간의 종속관계가 아니라 상호관계를 파악하는 기법들이다.
(예제 12-1) • 어떤 회사에 근무하는 20명의 판매원에 대한 판매활동의 적성시험점수와 일정기간의 판매실적이다. • 이 데이터를 가지고 적성시험으로부터 판매실적을 예측하는 1차식을 구하시오.
[예제 13-1] 중회귀분석의 실례 • 중학교 2학년생 15명의 공던지기, 악력, 신장, 체중의 측정치이다. 공던지기가 기초체력을 나타내는 악력, 신장, 체중과 같은 세개의 변수로 어느정도 설명이 되는가.