480 likes | 1.16k Views
상관 , 회귀분석 (Correlation, Regression). 변수들간의 관련성을 분석하는 방법 - 상관분석과 회귀분석 t 검정 , 분산분석법 - 연속형 반응변수와 집단을 나타내는 설명변수 ( 들 ) 간의 관련성을 분석 설명변수 : 집단 (group) 을 나타내는 명목 (nominal) 형 변수 → 집단간의 평균의 차이를 비교. 상관분석과 회귀분석의 구분. 상관분석 두 변수의 역할이 서로 대등할 때 사용 . 키와 몸무게 목적 (target) 변수의 역할이 서로 바뀔 수 있을 때
E N D
변수들간의 관련성을 분석하는 방법 - 상관분석과 회귀분석 t 검정, 분산분석법 - 연속형 반응변수와 집단을 나타내는 설명변수(들)간의 관련성을 분석 설명변수 : 집단(group)을 나타내는 명목(nominal)형 변수 → 집단간의 평균의 차이를 비교
상관분석과 회귀분석의 구분 상관분석 두 변수의 역할이 서로 대등할 때 사용. 키와 몸무게 목적(target)변수의 역할이 서로 바뀔 수 있을 때 - 역할의 구분이 없을 때 두 변수간의 직선적(linear) 관련성의 강도(strength)를 하나의 값, 상관계수(correlation coefficient)로 표현
회귀분석 두 변수의 관계에 분명한 방향(direction)이 있을 때 혈압과 체질량 지수 반응변수와 설명변수(종속변수와 독립변수) - 변수의 역할을 구분 두 변수의 직선적 관련성을 구체적인 수식으로 표현 예측(prediction)을 위한 목적에도 사용
예. 출생 1일 전 초음파검사 실시. (15명) 태아의 배둘레(cm), 출생시 몸무게(kg) 측정
상관계수(r) 몸무게 (kg) r=0.897 배둘레(cm)
Pearson correlation coefficient Spearman correlation coefficient 두 변수 X, Y가 정규분포할 때 두 변수 X, Y가 정규분포하지 않을 때
몸무게 (kg) 몸무게=-0.85+0.13 배둘레 배둘레(cm) 회귀분석
Regression coefficients, 회귀계수 회귀분석 결과의 해석 몸무게 = -0.85+0.13 배둘레 -0.85 : Intercept, Y 축의절편 배둘레가 0 cm일 때의 몸무게, -0.85 kg 관심의 대상이 아니다
0.13 : Slope, 기울기 • 배둘레가 1 증가할 때 몸무게의 변화량 • 배둘레가 1 cm 더 크면, 몸무게가 0.13 kg 더 많이 나간다. SAS를 이용한 분석 DATA a1; INPUT abd@@; CARDS; 35.0 32.0 30.0 31.5 32.7 30.0 36.0 30.5 34.7 30.5 33.0 35.0 31.8 38.0 33.0 ;
DATA a2; INPUT wt@@; CARDS; 3.45 3.20 3.00 3.20 3.30 3.20 3.85 3.15 3.65 3.40 3.50 4.00 3.10 4.20 3.45 ; DATA aa; MERGE a1 a2; PROC CORR NOSIMPLE; RUN; PROC REG; MODEL wt=abd; RUN; 분석결과 피어슨 상관 계수, N = 15 H0: Rho=0 검정에 대한 Prob > |r| abd wt abd 1.00000 0.89694 <.0001
? The REG Procedure Model: MODEL1 Dependent Variable: wt Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 1.36310 1.36310 53.50 <.0001 Error 13 0.33124 0.02548 Corrected Total 14 1.69433 Root MSE 0.15962 R-Square 0.8045 Dependent Mean 3.44333 Adj R-Sq 0.7895 Coeff Var 4.63573
회귀(model) 제곱합 R2 = 총 제곱합 결정계수(R2)의 해석 확인 !! 분산분석(ANOVA)에서 제곱합의 분할
몸무게 (kg) 배둘레(cm) 회귀분석
오차 총 회귀(model) 제곱합 회귀 R2 = 총 제곱합
R2 • 반응값(몸무게)의 차이를 회귀모형을 통해 설명할 수 있는 정도 • 몸무게의 차이를 배둘레로 80.45% 만큼 설명할 수 있다. R2 = r2 (단순회귀) R2 는 얼마나 커야 하는가?
회귀식 : 몸무게 = -0.85 + 0.13 배둘레 기울기 = 0에 대한 P값 결과(계속) Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -0.85138 0.58862 -1.45 0.1717 abd 1 0.13049 0.01784 7.31 <.0001
다중회귀분석 Multiple regression : 설명변수 2개 이상 Simple regression : 설명변수 1개 예. (수축기) 혈압 나이, 체질량지수
DATA a1; INPUT sbp@@; CARDS; 125 127 128 130 131 133 135 136 140 141 143 145 147 148 150 152 154 160 166 168 ; DATA a2; INPUT age@@; CARDS; 45 37 35 40 65 32 55 62 60 63 60 55 60 55 66 46 70 60 64 65 ; DATA a3; INPUT bmi@@; CARDS; 20 22 23 23 24 25 25 26 26 27 25 26 27 27 28 30 29 30 31 32 ; DATA aa; MERGE a1 a2 a3; PROC CORR NOSIMPLE; RUN;
피어슨 상관 계수, N = 20 H0: Rho=0 검정에 대한 Prob > |r| sbp age bmi sbp 1.00000 0.61830 0.95717 0.0037 <.0001 age 0.61830 1.00000 0.59782 0.0037 0.0054 bmi 0.95717 0.59782 1.00000 <.0001 0.0054
PROC REG; MODEL sbp=age; RUN; R-Square 0.3823 Adj R-Sq 0.3480 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 105.34123 11.50039 9.16 <.0001 age 1 0.68692 0.20581 3.34 0.0037 PROC REG; MODEL sbp=bmi; RUN; R-Square 0.9162 Adj R-Sq 0.9115 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 39.96308 7.39148 5.41 <.0001 bmi 1 3.91585 0.27919 14.03 <.0001
= PROC REG; MODEL sbp=age bmi; RUN; R-Square 0.9195 Adj R-Sq 0.9100 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 40.21381 7.46041 5.39 <.0001 age 1 0.07967 0.09538 0.84 0.4152 bmi 1 3.74047 0.35124 10.65 <.0001 Model R2 Adj. R2 P-value . Age 0.3823 0.3480 0.0037 Bmi 0.9162 0.9115 <.0001 age, bmi 0.9195 0.9100 0.4152, <.0001
다중공선성 (Multicollinearity) 0.99999 만약 세 변수간의 상관계수가 sbp age bmi sbp 1.00000 0.61830 0.95717 0.0037 <.0001 age 0.61830 1.00000 0.59782 0.0037 0.0054
R-Square 0.9195 Adj R-Sq 0.9100 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 40.21381 7.46041 5.39 <.0001 age 1 0.07967 0.09538 0.84 0.4152 bmi 1 3.74047 0.35124 10.65 <.0001 회귀식 : SBP = 40.2 + 0.08 age + 3.74 bmi 해석 0.08, 3.74 : 편회귀계수(partial reg. coeff.)
t 검정 명목형 설명변수 예. SBP Age, BMI, Gender(Male=1, Female=0) SBP와 Gender간의 관계 t 검정
Y = 3 + 5 group • 절편 : 3 (0 group의 평균) • 기울기 : 5 (평균 차이) 5 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 3.00000 0.70711 4.24 0.0028 gr 1 5.00000 1.00000 5.00 0.0011 1
여러 개의 범주를 가진 명목형 설명변수예. 종교 : 무종교, 가톨릭, 기독교, 불교(1, 2, 3, 4)세 개의 가변수(x1, x2, x3) x1 x2 x3 ----------------------무종교 0 0 0 (reference group) 가톨릭 1 0 0기독교 0 1 0불교 0 0 1 주의! 한 변수로부터 생성된 가변수들은 모두 함께 사용되든지, 아니면 하나도 사용되지 않든지 해야 한다
변수의 선택 설명변수의 수 R2 예. 자료의 수 10개, 설명변수 9개 →결정계수 = 1(100%) →10개의 점들을 하나씩 직선으로 연결 회귀계수의 수 10개 = 원래 자료의 수 →처음부터 원 자료 10개를 그대로 제시?
분석결과의 제시 t 검정 : Mean±SD, 회귀분석 : 회귀식 • 현상(data)의 요약(summary) 설명변수의 수 요약 ,현상의 설명 설명변수의 수 현상의 설명 , 요약
통계적 해결방법 1. 검정 “그 변수를 추가하면 통계적으로 유의할 만큼 설명력이 증가하는가”를 검정하여 결정 2. 회귀모형의 적합성(goodness of fit)을 하나의 척도(measure)로 판단하는 방법 Adj. R2 - 여러 회귀모형 중, 그 값이 가장 큰 것 Mallow의 Cp - 여러 회귀모형 중 Cp값이 (설명변수의 수 + 1)과 가장 가깝게 되는 모형을 선택
분석 프로그램의 이용 Forward selection 가장 중요하다고 생각되는 변수부터 하나씩 차례로 회귀모형에 추가하되, 더 이상 중요한 변수가 없다고 판정될 때 중단한다. 이 과정에서 일단 선택된 변수는 추후에 제거됨이 없이 최종모형에 그대로 남는다. Backward elimination 모든 설명변수가 포함된 회귀모형에서 출발하며, 가장 중요하지 않다고 생각되는 변수부터 하나씩 차례로 제거해 나간다. 이 과정에서 일단 제거된 변수는 추후에 다시 선택되지 않는다.
Stepwise(forward and backward) 앞으로부터 선택방법의 수정된 형태로, 중요하다고 생각되는 변수부터 하나씩 회귀모형에 추가하되, 각 단계마다 선택된 변수들 중 가장 중요하지 않은 변수들이 제거되기도 한다. 프로그램에 의한 분석시 주의할 점 1. 명목형 설명변수 : 한 변수로부터 생성된 가변수들은 모두 함께 사용되든지, 아니면 하나도 사용되지 않든지 해야 한다 2. 유의성 여부에 관계없이 반드시 포함해야 할 변수의 처리
회귀분석 결과의 제시 1. 표 : 단위, 회귀계수, 표준오차, P값, R2 주의 : 표준화 회귀계수(SPSS, β) 반응변수와 설명변수를 먼저 평균 0, 표준편차 1 인 분포로 변수변환한 후 구한 회귀계수 →원래의 변수들이 가졌던 단위를 잃어버리게 되므로, 회귀계수에 대한 통상적인 해석을 할 수 없게 된다
모든 설명변수의 단위를 통일하였으므로, 설명변수들간의 상대적인 중요성을 평가하는데 하나의 척도로 사용될 수 있다 →베타값이 더 큰 설명변수가 반응변수를 설명하는데 더 큰 기여를 한다. P값이 더 작다 회귀분석의 결과를 표에 제시할 때에는 베타값이 아닌, 원래 변수들에 대한 회귀계수값을 제시하는 것이 옳은 표현
2. 설명력의 해석 : R2이용 주의 : Adj. R2, 사용하지 말 것 3. 주석의 표현 : Adjusted variables 주의 : 표에 제시된 변수들은 언급하지 말 것
DHEA와 관련된 인자를 알기 위하여 관련 인자들을 독립변수로 DHEA를 종속변수로 하여 단계적 회귀분석을 실시한 결과 통계적 유의성을 보이는 인자는 나이(P<0.001)와 TAS(P=0.012)였다. (표 5)