1 / 44

상관 , 회귀분석 (Correlation, Regression)

상관 , 회귀분석 (Correlation, Regression). 변수들간의 관련성을 분석하는 방법 - 상관분석과 회귀분석 t 검정 , 분산분석법 - 연속형 반응변수와 집단을 나타내는 설명변수 ( 들 ) 간의 관련성을 분석 설명변수 : 집단 (group) 을 나타내는 명목 (nominal) 형 변수 → 집단간의 평균의 차이를 비교. 상관분석과 회귀분석의 구분. 상관분석 두 변수의 역할이 서로 대등할 때 사용 . 키와 몸무게 목적 (target) 변수의 역할이 서로 바뀔 수 있을 때

ewa
Download Presentation

상관 , 회귀분석 (Correlation, Regression)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 상관, 회귀분석(Correlation, Regression)

  2. 변수들간의 관련성을 분석하는 방법 - 상관분석과 회귀분석 t 검정, 분산분석법 - 연속형 반응변수와 집단을 나타내는 설명변수(들)간의 관련성을 분석 설명변수 : 집단(group)을 나타내는 명목(nominal)형 변수 → 집단간의 평균의 차이를 비교

  3. 상관분석과 회귀분석의 구분 상관분석 두 변수의 역할이 서로 대등할 때 사용. 키와 몸무게 목적(target)변수의 역할이 서로 바뀔 수 있을 때 - 역할의 구분이 없을 때 두 변수간의 직선적(linear) 관련성의 강도(strength)를 하나의 값, 상관계수(correlation coefficient)로 표현

  4. 회귀분석 두 변수의 관계에 분명한 방향(direction)이 있을 때 혈압과 체질량 지수 반응변수와 설명변수(종속변수와 독립변수) - 변수의 역할을 구분 두 변수의 직선적 관련성을 구체적인 수식으로 표현 예측(prediction)을 위한 목적에도 사용

  5. 예. 출생 1일 전 초음파검사 실시. (15명) 태아의 배둘레(cm), 출생시 몸무게(kg) 측정

  6. 상관계수(r) 몸무게 (kg) r=0.897 배둘레(cm)

  7. r =1

  8. r=0

  9. Pearson correlation coefficient Spearman correlation coefficient 두 변수 X, Y가 정규분포할 때 두 변수 X, Y가 정규분포하지 않을 때

  10. 몸무게 (kg) 몸무게=-0.85+0.13 배둘레 배둘레(cm) 회귀분석

  11. Regression coefficients, 회귀계수 회귀분석 결과의 해석 몸무게 = -0.85+0.13 배둘레 -0.85 : Intercept, Y 축의절편 배둘레가 0 cm일 때의 몸무게, -0.85 kg  관심의 대상이 아니다

  12. 0.13 : Slope, 기울기 • 배둘레가 1 증가할 때 몸무게의 변화량 • 배둘레가 1 cm 더 크면, 몸무게가 0.13 kg 더 많이 나간다. SAS를 이용한 분석 DATA a1; INPUT abd@@; CARDS; 35.0 32.0 30.0 31.5 32.7 30.0 36.0 30.5 34.7 30.5 33.0 35.0 31.8 38.0 33.0 ;

  13. DATA a2; INPUT wt@@; CARDS; 3.45 3.20 3.00 3.20 3.30 3.20 3.85 3.15 3.65 3.40 3.50 4.00 3.10 4.20 3.45 ; DATA aa; MERGE a1 a2; PROC CORR NOSIMPLE; RUN; PROC REG; MODEL wt=abd; RUN; 분석결과 피어슨 상관 계수, N = 15 H0: Rho=0 검정에 대한 Prob > |r| abd wt abd 1.00000 0.89694 <.0001

  14. ? The REG Procedure Model: MODEL1 Dependent Variable: wt Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 1.36310 1.36310 53.50 <.0001 Error 13 0.33124 0.02548 Corrected Total 14 1.69433 Root MSE 0.15962 R-Square 0.8045 Dependent Mean 3.44333 Adj R-Sq 0.7895 Coeff Var 4.63573

  15. 회귀(model) 제곱합 R2 = 총 제곱합 결정계수(R2)의 해석 확인 !! 분산분석(ANOVA)에서 제곱합의 분할

  16. 몸무게 (kg) 배둘레(cm) 회귀분석

  17. 오차 총 회귀(model) 제곱합 회귀 R2 = 총 제곱합

  18. R2 • 반응값(몸무게)의 차이를 회귀모형을 통해 설명할 수 있는 정도 • 몸무게의 차이를 배둘레로 80.45% 만큼 설명할 수 있다. R2 = r2 (단순회귀) R2 는 얼마나 커야 하는가?

  19. 회귀식 : 몸무게 = -0.85 + 0.13 배둘레 기울기 = 0에 대한 P값 결과(계속) Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -0.85138 0.58862 -1.45 0.1717 abd 1 0.13049 0.01784 7.31 <.0001

  20. 다중회귀분석 Multiple regression : 설명변수 2개 이상 Simple regression : 설명변수 1개 예. (수축기) 혈압  나이, 체질량지수

  21. DATA a1; INPUT sbp@@; CARDS; 125 127 128 130 131 133 135 136 140 141 143 145 147 148 150 152 154 160 166 168 ; DATA a2; INPUT age@@; CARDS; 45 37 35 40 65 32 55 62 60 63 60 55 60 55 66 46 70 60 64 65 ; DATA a3; INPUT bmi@@; CARDS; 20 22 23 23 24 25 25 26 26 27 25 26 27 27 28 30 29 30 31 32 ; DATA aa; MERGE a1 a2 a3; PROC CORR NOSIMPLE; RUN;

  22. 피어슨 상관 계수, N = 20 H0: Rho=0 검정에 대한 Prob > |r| sbp age bmi sbp 1.00000 0.61830 0.95717 0.0037 <.0001 age 0.61830 1.00000 0.59782 0.0037 0.0054 bmi 0.95717 0.59782 1.00000 <.0001 0.0054

  23. PROC REG; MODEL sbp=age; RUN; R-Square 0.3823 Adj R-Sq 0.3480 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 105.34123 11.50039 9.16 <.0001 age 1 0.68692 0.20581 3.34 0.0037 PROC REG; MODEL sbp=bmi; RUN; R-Square 0.9162 Adj R-Sq 0.9115 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 39.96308 7.39148 5.41 <.0001 bmi 1 3.91585 0.27919 14.03 <.0001

  24.  =    PROC REG; MODEL sbp=age bmi; RUN; R-Square 0.9195 Adj R-Sq 0.9100 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 40.21381 7.46041 5.39 <.0001 age 1 0.07967 0.09538 0.84 0.4152 bmi 1 3.74047 0.35124 10.65 <.0001 Model R2 Adj. R2 P-value . Age 0.3823 0.3480 0.0037 Bmi 0.9162 0.9115 <.0001 age, bmi 0.9195 0.9100 0.4152, <.0001

  25. 다중공선성 (Multicollinearity) 0.99999 만약 세 변수간의 상관계수가 sbp age bmi sbp 1.00000 0.61830 0.95717 0.0037 <.0001 age 0.61830 1.00000 0.59782 0.0037 0.0054

  26. R-Square 0.9195 Adj R-Sq 0.9100 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 40.21381 7.46041 5.39 <.0001 age 1 0.07967 0.09538 0.84 0.4152 bmi 1 3.74047 0.35124 10.65 <.0001 회귀식 : SBP = 40.2 + 0.08 age + 3.74 bmi 해석 0.08, 3.74 : 편회귀계수(partial reg. coeff.)

  27. t 검정 명목형 설명변수 예. SBP  Age, BMI, Gender(Male=1, Female=0)  SBP와 Gender간의 관계  t 검정

  28. Y = 3 + 5 group • 절편 : 3 (0 group의 평균) • 기울기 : 5 (평균 차이) 5 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 3.00000 0.70711 4.24 0.0028 gr 1 5.00000 1.00000 5.00 0.0011 1

  29. 여러 개의 범주를 가진 명목형 설명변수예. 종교 : 무종교, 가톨릭, 기독교, 불교(1, 2, 3, 4)세 개의 가변수(x1, x2, x3) x1 x2 x3 ----------------------무종교 0 0 0 (reference group) 가톨릭 1 0 0기독교 0 1 0불교 0 0 1 주의! 한 변수로부터 생성된 가변수들은 모두 함께 사용되든지, 아니면 하나도 사용되지 않든지 해야 한다

  30. 변수의 선택 설명변수의 수   R2  예. 자료의 수 10개, 설명변수 9개 →결정계수 = 1(100%) →10개의 점들을 하나씩 직선으로 연결 회귀계수의 수 10개 = 원래 자료의 수 →처음부터 원 자료 10개를 그대로 제시?

  31. 분석결과의 제시 t 검정 : Mean±SD, 회귀분석 : 회귀식 • 현상(data)의 요약(summary) 설명변수의 수   요약 ,현상의 설명  설명변수의 수   현상의 설명 , 요약 

  32. 통계적 해결방법 1. 검정 “그 변수를 추가하면 통계적으로 유의할 만큼 설명력이 증가하는가”를 검정하여 결정 2. 회귀모형의 적합성(goodness of fit)을 하나의 척도(measure)로 판단하는 방법 Adj. R2 - 여러 회귀모형 중, 그 값이 가장 큰 것 Mallow의 Cp - 여러 회귀모형 중 Cp값이 (설명변수의 수 + 1)과 가장 가깝게 되는 모형을 선택

  33. 분석 프로그램의 이용 Forward selection 가장 중요하다고 생각되는 변수부터 하나씩 차례로 회귀모형에 추가하되, 더 이상 중요한 변수가 없다고 판정될 때 중단한다. 이 과정에서 일단 선택된 변수는 추후에 제거됨이 없이 최종모형에 그대로 남는다. Backward elimination 모든 설명변수가 포함된 회귀모형에서 출발하며, 가장 중요하지 않다고 생각되는 변수부터 하나씩 차례로 제거해 나간다. 이 과정에서 일단 제거된 변수는 추후에 다시 선택되지 않는다.

  34. Stepwise(forward and backward) 앞으로부터 선택방법의 수정된 형태로, 중요하다고 생각되는 변수부터 하나씩 회귀모형에 추가하되, 각 단계마다 선택된 변수들 중 가장 중요하지 않은 변수들이 제거되기도 한다. 프로그램에 의한 분석시 주의할 점 1. 명목형 설명변수 : 한 변수로부터 생성된 가변수들은 모두 함께 사용되든지, 아니면 하나도 사용되지 않든지 해야 한다 2. 유의성 여부에 관계없이 반드시 포함해야 할 변수의 처리

  35. 회귀분석 결과의 제시 1. 표 : 단위, 회귀계수, 표준오차, P값, R2 주의 : 표준화 회귀계수(SPSS, β) 반응변수와 설명변수를 먼저 평균 0, 표준편차 1 인 분포로 변수변환한 후 구한 회귀계수 →원래의 변수들이 가졌던 단위를 잃어버리게 되므로, 회귀계수에 대한 통상적인 해석을 할 수 없게 된다

  36. 모든 설명변수의 단위를 통일하였으므로, 설명변수들간의 상대적인 중요성을 평가하는데 하나의 척도로 사용될 수 있다 →베타값이 더 큰 설명변수가 반응변수를 설명하는데 더 큰 기여를 한다. P값이 더 작다  회귀분석의 결과를 표에 제시할 때에는 베타값이 아닌, 원래 변수들에 대한 회귀계수값을 제시하는 것이 옳은 표현

  37. 2. 설명력의 해석 : R2이용 주의 : Adj. R2, 사용하지 말 것 3. 주석의 표현 : Adjusted variables 주의 : 표에 제시된 변수들은 언급하지 말 것

  38. DHEA와 관련된 인자를 알기 위하여 관련 인자들을 독립변수로 DHEA를 종속변수로 하여 단계적 회귀분석을 실시한 결과 통계적 유의성을 보이는 인자는 나이(P<0.001)와 TAS(P=0.012)였다. (표 5)

More Related