170 likes | 471 Views
Z = 판별점수 W i = 변수 i 에 대한 판별계수 ( discriminant coefficient ) X i = 독립변수 i. 판별분석의 개념과 적용 (→ 추계통계적 성격 ) 회귀분석 : 독립변수와 종속변수가 모두 간격척도 , 비율척도로 측정된 경우 변수들간의 관계에 관한 분석 ( 예외적으로 더미변수가 독립변수로 사용되면 이는 명목척도 ).
E N D
Z = 판별점수 Wi = 변수 i에 대한 판별계수(discriminant coefficient) Xi = 독립변수 i • 판별분석의 개념과 적용(→ 추계통계적 성격) • 회귀분석 : 독립변수와 종속변수가 모두 간격척도, 비율척도로 측정된 경우 변수들간의 관계에 관한 분석(예외적으로 더미변수가 독립변수로 사용되면 이는 명목척도). • 판별분석(discriminant analysis) : 독립변수는 간격척도 또는 비율척도로 측정되었으나 종속변수는 명목척도(또는 범주척도, 분류척도)로 측정된 경우 독립변수와 종속변수의 관계를 조사하는 분석방법으로 마케팅에 매우 유용하게 이용될 수 있음. • 두 집단 판별분석 : 종속변수의 범주가 두 개인 경우의 판별분석. • 다중판별분석 : 종속변수의 범주가 세 개 이상인 경우의 판별분석. • 기본적으로 집단내 분산에 비해 집단간 분산의 차이를 최대화하는 독립변수들의 계수를 찾아야 하며, 이때 독립변수들의 선형결합을 판별함수(혹은 판별식)라고 한다. 제 16 장 판별분석
정수기 제조회사가 신제품 정수기를 개발하여 10명의 주부들에게 한동안 제품을 시험사용하게 한 후 세 가지 속성을 10점 척도로 평가하도록 하고 구매의도를 질문(10점 척도로 평가). 두 그룹간의 차이가 내구 성에서는 매우 높게 나타났으며, 그 다음 성능, 그리고 스타일 에서는 매우 낮게 나타남.
판별분석 결과에 의해 • 어떤 변수(들)가 어느 방향(正/負)으로 얼마만큼 판별점수에 영향을 미치는지 알 수 있음(회귀분석의 개별 회귀계수의 역할과 유사). • 새로운 대상의 독립변수의 값에 대한 정보가 있을 때 판별점수를 계산함으로써 그 대상이 어느 범주에 속할 것인지를 예측(회귀분석에서 회귀식을 이용하여 독립변수의 값들로부터 종속변수 값을 예측하는 것과 유사). → 스타일이 높다고 해서 구매할 것 같지 않으며, 내구성을 높게 평가하는 그룹이 구매할 가능성이 높으며, 영향력은 내구성 > 성능 > 스타일이다. • 판별분석을 위한 가정 • 독립변수들이 다변량 정규분포(multivariate normality)를 이루며, • 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬(variance-covariance matrices)이 동일해야 한다. • 다중정규성 가정을 충족시키지 못하는 자료를 판별분석을 하는 경우 : 판별함수의 추정에 문제를 야기시키며, 이 경우 logistic regression이 사용될 수 있다. • 분산-공분산 행력이 동일하다는 가정이 충족되지 못하는 경우 : 보다 큰 분산-공분산 행렬을 갖는 그룹에 많은 관측치가 분류되는 문제점 발생. 다중정규성 가정을 엄격하게 요구하지 않음.
판별함수 계산 판별함수의 판별력(discriminatory power)의 통계적 유의성 점검 : Wilks’ lamda가 주로 사용되며, χ2검증을 실시. 다중회귀분석에서 F-검증에 의해 회귀식이 유의적인 것으로 판명되었다 하더라도 R2가 높을수록 그 회귀식의 설명력이 높은 것으로 받아들이는 것과 유사하며, 판별함수의 판별력은 유의적으로 나타나더라도 두 집단의 경우 hit ratio가 예를 들어 53% 밖에 되지 않으며 판별력이 좋다고 할 수 없다. 이는 두 집단의 크기가 같은 경우 임의적 분류를 하더라도 hit ratio는 50%이기 때문이다. : 회귀분석의 R2에 해당하는 값은 판별분석에서 hit ratio(정확히 분류된 대상의 수를 전체 대상의 수로 나눈 값으로 0과 1 사이의 값). 판별함수의 전반적 적합도(overall fit) 점검 • 판별함수의 수와 판별분석을 위한 표본의 크기 • “종속변수 집단 수 – 1”과 “독립변수의 수” 중에서 작은 값만큼의 판별함수가 만들어짐. • 판별분석을 위해서는 관측치의 개수(표본의 크기)가 독립변수 수의 20배 이상이 되는 것이 요구되며, 종속변수의 각 범주에 최소한 20개가 요구하며, 표본의 크기가 이를 충족시키지 못하면 분석결과는 불안정(unstable : 판별식을 구성하는 각 독립변수와 전체 판별식의 설명력과 예측력을 신뢰할 수 없다는 의미)해 짐. • 판별식의 추정과 적합도 평가 • 동시입력방식(simultaneous estimation) : 모든 독립변수들에 대한 계수 동시에 계산. • 단계입력방식(stepwise estimation) : 판별력이 높은 순서로 입력되어 추정이 이루어짐.
( 판별분석 방법 ) 판별분석방법 동시입력방식 단계입력방식 • 판별분석의 예(두 집단 판별분석 ; 동시입력방식에 의한 판별분석한 결과)
비율척도 간격척도 • 집단통계량 네 개 변수 모두 에서 집단 2는 집단 1보다 높게 나타남.
두 집단을 구별하는데 직무성적이 가장 유용한 변수일 것으로 추정할 수 있다. • Wilks’ lamda : 집단내 분산/(집단내 분산 + 집단간 분산)의 비율로서 집단간 분산이 집단내 분산에 비해 클수록 0에 가까워지며, 반대의 경우 1에 가까워지고 분산분석의 F값과는 반대방향을 갖는다. 차이검증(ANOVA) 결과 두 집단간에 사교성, 경력, 직무성적의 차이는 유의적이나 평점의 차이는 비유의적으로 나타남.
정준판별함수(Canonical Discriminant Function) 공분산 행렬이 동일성 가정에 위배되지 않음 을 보여줌. 정준상관계수(canonical correlation coefficient) : 제곱하면 (.570)2 = .3249로, 이는 종속변수 분산의 32.49%가 네 개의 독립변수들에 의해 설명됨을 의미. 유의적 : 판별함수가 유용함을 나타냄. 독립변수들에 걸쳐 두 집단간에 차이가 있는지를 검증하는 것으로 검증결과 유의적으로 나타나 네 개의 독립변수들에 걸쳐 두 집단간에 유의적인 차이가 있는 것으로 나타남.
표준화된 정준판별함수계수와 구조행렬 • 표준화된 정준판별함수 계수(standardized canonical discriminant function coefficient) : 표준화된 계수로서 각 변수가 판매원들의 소속집단을 설명하는데 있어서 상대적 중요도를 나타냄(직무성적이 가장 중요 ← 판별력이 가장 큼) → 회귀분석의 표준화된 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값을 표준화 한 것. 판별적재값 : ± .3 이상이면 유의적인 것으로 본다. • 구조행렬(structure matrix) : 각 변수와 표준화된 정준판별함수간의 상관관계를 나타내며, 상관관계 값은 판별적재값(discriminant loading)이라고 하며, 요인분석의 요인적재값에 비유될 수 있음. • 직무성적과 판별함수간의 상관관계가 가장 높게 나타남. • 판별력 : 전통적으로 표준화된 판별계수를 이용하였으나, 다중회귀분석의 경우와 유사하게 각 변수의 판별력이 “다중공선성(multicollinearity)”때문에 낮게 나타날 수 있어 판별력의 크기는 구조행렬로 판단(직무성적 >사교성 > 평점 > 경력).
정준판별함수계수와 중심값(centroid) • 표준화되지 않은 정준판별함수계수(unstandardized discriminant function coefficient) : 회귀분석의 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값이며, 판별점수(Z)를 계산하는데 사용. • 판매원 1의 판별점수 = .039×23 - .544×2.28 + .168×3 + .091×57 • - 8.128 = - 2.803 • 판매원 1은 원래 집단 1에 분류 → 각 집단에 속한 판매원들의 판별점수를 구하고 이 값들의 평균 : 각 집단의 중심값(centroid). • 좌측의 표는 각 집단의 중심값을 나타내고, 이 표를 통해서 두 집단 구성원들의 전체평균이 0 임을 알 수 있다.
집단 1 집단 2 - 1 -.862 0 + 1 .541 • 분류함수계수 • 집단 1은 집단 2보다 평균값 0으로부터 더 멀리 떨어져 있다. 그러므로 -.862×27 + .541×43 = 0으로 전체평균이 0 임을 알 수 있다. id 1의 각 값을 집어 넣었을 때 값을 통해 집단 1로 제대로 분류되었는지를 확인할 수 있다. • 분류함수(classification function) 또는 Fisher’s선형판별함수(linear discriminant function) : 각 집단별로 생성되며(집단의 수만큼 생성), 새로운 분류대상이 있을 때 그 분류대상의 독립변수 값들을 분류함수에 삽입하여 계산한 결과 큰 값으로 나타나는 집단에 분류된다. • 새로운 판매사원의 네 가지 독립변수 값들이 다음과 같은 경우 : • 사교성 : 40, 평점 : 3.00, 경력 : 7, 직무성적 : 80 • 집단 1 : .233×40 + 2.581×3.00 + .848×7 + .623×80 – 33.277 = 39.562 • 집단 2 : .288×40 + 1.803×3.00 + 1.084×7 + .751×80 – 44.462 = 40.135
원래 집단 1의 27명 중 20명이, 집단 2의 43명 중 32명이 정확하게 분류. 회귀분석의 R2와 유사 : 설명, 즉 제대로 판별되었는지를 나타낸다. • 위 식을 통해 집단 2의 값이 더 크므로 이 판매원은 집단 2로 분류된다. • 분류함수와 정준판별함수의 구별 • 분류함수 : 집단의 수만큼 도출되며, 기존 분석의 대상이 된 판매원이나 새로운 판매원이 어느 집단에 분류될 것인지를 예측하는데 사용. • 정준판별함수 : “집단의 수 – 1”과 “독립변수의 수” 중에서 작은 수만큼 도출되며, 기존 분석의 대상이 된 판매원들이 소속된 각 집단의 중심값(cetroid)을 계산하는데 사용. • 분류결과 • 조사대상 판매원들의 실제소속집단과 분류함수에 의한 예측소속집단의 교차표로서 분류함수가 표본판매원들의 분류를 얼마나 잘 예측하는가를 나타낸다. • 전체적으로 70명 중 52명이 정확하게 분류되어 hit ratio는 74.3%이다.
판별분석 결과 해석 시 중점사항 요약 • 공분산행렬과 Box’s M검증 : 분류집단들의 공분산행렬의 동일성 가정을 검증하는 것으로 p-value> .05이면 가정을 충족. • 정준판별함수 : Wilks’ lamda값의 χ2-검증결과 p-value< .05이면 집단간에 유의적이 차이가 있다. • 표준화된 정준판별함수 계수와 구조행렬 : 독립변수의 판별력을 보여주는데 구조행렬상에 있는 계수(판별적재값)가 많이 사용되며, 계수값이 클수록 판별력이 크다. • 정준판별함수 계수와 중심값(cetroid) : 정준판별함수 계수는 회귀분석의 회귀계수에 비유될 수 있으며, 각 집단의 중심값을 계산하는 데 사용됨. • 분류함수 계수 : 새로운 분류대상을 어느 집단으로 분류할 것인가를 결정하는 데 사용되며, hit ratio계산을 위하여 원자료 구성원의 독립변수 값들로부터 소속될 집단을 예측하는데 사용됨. • Hit Ratio : 판별함수가 조사대상을 얼마나 잘 분류할 수 있는가를 나타내는데, 회귀분석의 R2에 비유될 수 있다.