970 likes | 1.27k Views
다변량 분석법. 수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13. 몇가지 용어들. 주성분 분석. 인자 분석. 군집 분석. 참고 문헌. 차 례. 몇가지 용어들. 자료 행렬. 행은 개체 ( ), 열은 변수 ( ), 일반적으로 고객만족자료. 기술 통계량. ◈ 평균 : 변수 의 표본평균. ◈ 공분산 행렬 : : 행렬 ( 대각원소는 분산 , 그 외는 공분산 ).
E N D
다변량 분석법 수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13
몇가지 용어들 주성분 분석 인자 분석 군집 분석 참고 문헌 차 례
자료 행렬 행은 개체( ), 열은 변수( ), 일반적으로 고객만족자료
기술 통계량 ◈ 평균: 변수 의 표본평균 ◈ 공분산 행렬: : 행렬 (대각원소는 분산, 그 외는 공분산) ◈ 상관계수 행렬: : 행렬 (대각원소는 1)
중심화 자료 표준화 자료 vs. ◈ 중심화: (평균은 0, 분산과 공분산은 불변) ◈ 표준화: (평균은 0, 분산은 1, 공분산은 상관계수)
개체 간 거리 (제곱 유크리드 거리 vs. Mahalanobis 거리) ◈ 유크리드 거리는 변수 간 서로 연관이 없고 분산이 1 임을 가정한 측도 ◈Mahalanobis 거리는 변수 간 상관의 크기와 방향을 고려한 측도
선 형 결 합 ◈ : 상수벡터, : 확률벡터라 할 때,
◈변수(집단) 간 종속 관계에 관심 있을 때 독립변수 종속변수 1개 2개+ 연속형 범주형 연속형 범주형 1개 연속형 Regression DA, Logistic Reg CCA MDA 범주형 t-test Discrete DA MANOVA Discrete MDA 2개+ 연속형 Multiple Reg DA, Logistic Reg CCA MDA 범주형 ANOVA Discrete DA, Conjoint MANOVA Discrete MDA 다변량 자료 분석 방법 요약
◈변수 간 내적 종속 관계에 관심이 있을 때 변수개수 자료형태 연속형 범주형 2개 Correlation analysis 2-Way Contingency table, Loglinear Model 2개+ PCA, FA Multi-way Contingency table, Loglinear Model, Correspondence Analysis 다변량 자료 분석 방법 요약
주성분 분석 ( Principal Component Analysis)
목 적 원변수의 선형결합 (소위 주성분)으로 표현된 몇 개의 변수( < )로 원변수 간의 공분산 구조를 설명하고자 함
이로운 점 차원 축소로 해석이 쉬워지고, 주성분 지시자를 통해 개체 간 특성에 따른 분류가 가능
몇 가지 적용 예 1. 200대 기업의 재무상황을 평가하기 위해 각 기업으로부터 20여개의 재무변수를 측정했을 때, 20여개의 변수 대신 2,3개 정도의 지시자를 개발하여 기업의 재무 특성 파악을 손쉽게
몇 가지 적용 예 2. 2000명의 대학생들을 대상으로 사회적 태도, 문화적 경향, 라이프 스타일 등 100여 개 문항에 대한 설문조사를 했을 때, 모집단을 세분화하여 집단 별 사회적 특성을 파악
고유값 을 갖는 공분산행렬 라 하고, 개 선형 결합이 다음과 같다고 할 때, 를 구하는 문제!! 새로운 변수(주성분)는 어떻게 만드느냐?
새로운 변수(주성분)는 어떻게 만드느냐? ◈두 조건 1.주성분의 분산 을 최대로 2.주성분은 서로 독립 관계를 유지하도록 ◈해: 를 에 대응하는 고유벡터라 하면, 번째 주성분은
몇 가지 유용한 관계 1. 2. 총 분산( 의 대각원소 합) =
주성분은 몇 개가 적당한가? ◈ 답은 주관적임 ◈ 참고하는 기준들 1. 1보다 큰 고유값을 갖는 주성분들 (표준화된 자료를 사용했을 때에만) 2. Scree 그림(가로축: 주성분 개수, 세로축: 고유값): 기울기가 심하게 변하기 전까지의 주성분만 이용 3. 총 분산을 설명하는 양으로
주성분의 해석 ◈ 주성분 계수와 부호를 고려하여 ◈ 예: 인체 측정 자료 (신체의 전반적인 크기) (신장대비 체중으로 본 신체적 형태)
개체 분류 ◈주성분 공간 위에 각 개체의 주성분 점수 를 나타내어 개체들의 분포형태 및 개체간 유사성 등을 관찰 개체 플롯 ◈행렬 의 개 행 좌표값을 나타낸 플롯과 함께 나타내면 개체 특성 파악이 용이해짐 변수 플롯
그 외 이슈 ◈ 공분산 행렬(중심화 자료) vs.상관계수 행렬(표준화 자료) - 상관계수행렬은 척도불변하기 때문에 측정 단위에 무관 - 변수간 분산이 크게 다르면 변이가 큰 분산을 갖는 변수 들에 의해 주성분이 결정될 수 있음 - 동일 단위로 측정되었을 때는 공분산 행렬 선호
그 외 이슈 ◈ 주성분 분석 vs.인자 분석 - 주성분 분석은 개체 중심의 차원 축소, 인자분석은 변수 중심의 차원 축소 -개체 간 친소 관계 위주로 보기 위해서는 주성분 분석의 개체 플롯, 변수들을 시각적으로 군집화하기 위한 목적으로는 인자 분석의 변수 플롯 선호
P R I N C O M P 프로시져 ◈ 문법 PROC PRINCOMP <options>; BY variables; VAR variables;
P R I N C O M P 프로시져 ◈ 여러 옵션들 *DATA=SAS-data-set : 분석 대상이 되는 SAS data set *OUT=SAS-data-set : 원자료와 주성분 점수를 포함하는 SAS dada set 생성 *OUTSTAT= SAS-data-set : 기술통계량(평균, 표준편차, 자료수, 공분산, 상관계수), 고유값과 고유벡터을 포함하는 SAS data set 생성 *COV: 공분산 행렬로 주성분 분석 수행, 생략하면 상관계수 행렬로 주성분 분석 수행 *N= : 주성분의 개수 지정, 생략하면 변수 개수 만큼
P R I N C O M P 프로시져 ◈ 예 DATA satis; INPUT subject gender $ age x1 x2 x3 x4 x5; DATALINES; 1 F 10 1 2 4 1 1 10 M 50 5 5 5 4 4 ; PROC PRINCOMP DATA=satis COV OUTSTAT=out1 OUT=out2; VAR x1-x5; RUN;
P R I N C O M P 프로시져 ◈ 입력자료가 원자료 행렬 대신 공분산 행렬이나 상관계수 행렬인 경우 * SAS data set 정의 시 TYPE=CORR(혹은 COV) 옵션을 사용 하여 입력 자료가 상관 계수 행렬 혹은 공분산 행렬임을 표시 * 문자형 변수인 _TYPE_ 은 CORR , COV , STD , N 값을 갖고, _NAME_ 은 변수의 이름을 가짐 * TYPE=CORR 인 경우에는 _TYPE_ 변수에 반드시 CORR이 포함 되어야 하고, TYPE=COV 인 경우에는 _TYPE_ 변수에 반드시 COV , STD , N 이 포함 되어야 함
P R I N C O M P 프로시져 ◈ 예제 (표본 상관행렬) Data bloodcor( TYPE=CORR); input _type_ $ _name_ $ x1 x2 x3 x4 x5 x6 x7 x8; DATALINES; Corr x1 1 . . . . . . . Corr x2 0.29 1 . . . . . . Corr x3 0.20 0.42 1 . . . . . Corr x4 -0.06 0.29 0.42 1 . . . . Corr x5 -0.11 -0.38 -0.52 -0.88 1 . . . Corr x6 -0.25 -0.35 -0.44 -0.08 0.21 1 . . Corr x7 -0.23 -0.16 -0.15 0.02 0.03 0.19 1 . Corr x8 0.06 -0.13 -0.08 -0.13 0.15 0.08 0.42 1 STD . 0.37 41.25 1.94 0.08 0.08 4.04 2.73 0.30 N . 100 100 100 100 100 100 100 100 ; Run;
P R I N C O M P 프로시져 ◈ Ods Graphics 사용 고유값, 주성분점수 행렬, 주성분 패턴 (원변수와 주성분과의 상관계수)을 그래프 형식으로 출력
고객만족 자료 예제 SAS PROGRAM PROC PRINCOMP DATA=satis OUTSTAT=out1 OUT=out2; VAR x1-x5; RUN;
고객만족 자료 예제 SAS PROGRAM PROC PRINT DATA=out1; RUN;
고객만족 자료 예제 SAS PROGRAM PROC PRINT DATA=out2; RUN;
인자 분석 ( Factor Analysis )
변수들 간에 존재하는 상관구조를 몇 개의 공동 요인(인자)에 의해 설명하고자 함 차원축소가 가능하며 해석이 용이해짐 목 적
- 공통인자 모형: , :확률벡터, :인자적재행렬 직 교 인 자 모 형
:공통인자벡터, 대각 행렬 :특수인자벡터 직 교 인 자 모 형
번째 변수의 분산=공통성+특수분산 유 용 한 관 계
를 어떻게 추정할 것인가? • ◈대표적인 세가지 방법: 주성분법, 주축인자법, 최대우도법 • * 주축인자법: 의 시작값을 갖고서 을 추정한 후 • 동일한 과정을 반복하여 수렴해가 얻어질 • 때까지 • * 최대우도법: 의 분포가 정규분포라는 가정하에 • ◈공통인자의 개수는 주관적이지만 고유인자 공헌도, • scree 그림을 참고하여 결정
인자회전은 왜 필요한가? ◈ 인자패턴에 대한 좀더 쉬운 해석이 가능하도록 하기 위해서 ◈ 공통성은 직교변환에 의해 변하지 않음 ◈ 대표적인 세가지 방법: Varimax, Quartimax(직교회전), Promax(사각회전) -Varimax: 동일인자 내 변동이 커지도록 -Quartimax: 동일변수 내 변동이 커지도록