500 likes | 903 Views
Principal Component Analysis. 가중합계. 가중합계 (weighted sum) = 일차결합 (linear combination). [ 예 ]. 가중합계점수 = ( 영어 가중치 )*( 영어점수 ) + ( 수학 가중치 )*( 수학점수 ). 지적능력 (intellectual ability). 가중합계점수 = ( 키 가중치 )*( 키 ) + ( 몸무게 가중치 )*( 몸무게 ). ?. 가중치벡터 (weight vector). 가중합계를 사용하는 이유. Dimension reduction.
E N D
가중합계 가중합계(weighted sum) = 일차결합(linear combination) [예] 가중합계점수 = (영어 가중치)*(영어점수) + (수학 가중치)*(수학점수) 지적능력(intellectual ability) 가중합계점수 = (키 가중치)*(키) + (몸무게 가중치)*(몸무게) ? 가중치벡터(weight vector)
가중합계를 사용하는 이유 Dimension reduction ex) 영어, 수학 가중합계
가중치벡터와 가중합계 이면 가중합계=합계 이면 가중합계=평균 이면 가중합계=주성분 후보(principal component candidate) ※ 주성분의 조건 중 일부를 만족한다는 의미에서 후보임
가중합계의 기하학적 의미 단위벡터인 가중치벡터를 사용한 가중합계(=주성분 후보) 원점과 가중치벡터를 통과하는 직선(또는 초평면)에 자료점을 직교사영시켜 구한 좌표 [예] 영국 20명 여성의 키와 몸무게 자료
분산 평균 자료 분산 분산 1 2 3 분산 0 2 4 자료점(data point)들간의 간격이 넓으면 분산이 크다.
주성분분석 주성분분석(principal component analysis: PCA)은 p개의 변수로 구성된 자료로 부터 제1주성분부터 제p주성분까지 p개의 주성분(=가중합계) 및 각 주성분의 가중치벡터를 찾는 분석이라고 할 수 있다. 제1주성분(first principal component) : 분산이 가장 큰 가중합계(weighted sum) 제2주성분(second principal component) : (제1주성분과 상관관계가 없는) 분산이 두 번째로 큰 가중합계 제3주성분( third principal component) : (제1주성분 및 제2주성분과 상관관계가 없는) 분산이 세 번째로 큰 가중합계 가중합계는 주성분점수(principal component score)라고 한다. 상관관계가 없는 주성분은 서로 직교한다.
아래 산점도에서 제1주성분, 제2주성분, 및 제3주성분을 그림으로 나타내고 그렇게 나타낸 이유를 설명하시오.
X1,X2,X3의 3차원 윤곽산점도 <그림 4.3>
PCA_EXAMPLE자료를 SigmaPlot으로 작성한 것임 <그림 4.4> PCA_Example.JNB 참조
PCA_EXAMPLE자료를 SAS로 작성한 것임 <그림 4.5> Pairwise scatter plot(PCA_EXAMPLE).txt 파일 참조
분산 > <그림 4.6>
Z1이 설명하는 정보가 제거된 상태에서의 자료 모습 <그림 4.7>
상관계수행렬 의 고유값과 고유벡터 ? 1 0.7 0.7 1 data example(type=corr); input _type_ $ _name_ $ x1 x2; cards; corr x1 1 . corr x2 0.7 1 ; run; proc princomp data=example; run;
proc princomp data=PCA_EXAMPLE; run;
proc factor n=3; run;
주성분적재치 SAS로 작성한 주성분적재치 주성분분석(PCA_EXAMPLE)[proc iml].txt 참조 주성분분석(PCA_EXAMPLE)[proc factor].txt 참조
주성분분석의 적용사례 차원축소(dimension reduction) 관련성의 패턴인식(pattern recognition)
Cavalli-Sforza의 연구 <그림 4.1>, <그림 4.2> p.85