1 / 14

판별분석의 개념과 적용 (→ 추계통계적 성격 )

Z = 판별점수 W i = 변수 i 에 대한 판별계수 ( discriminant coefficient ) X i = 독립변수 i. 판별분석의 개념과 적용 (→ 추계통계적 성격 ) 회귀분석 : 독립변수와 종속변수가 모두 간격척도 , 비율척도로 측정된 경우 변수들간의 관계에 관한 분석 ( 예외적으로 더미변수가 독립변수로 사용되면 이는 명목척도 ).

Download Presentation

판별분석의 개념과 적용 (→ 추계통계적 성격 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Z = 판별점수 Wi = 변수 i에 대한 판별계수(discriminant coefficient) Xi = 독립변수 i • 판별분석의 개념과 적용(→ 추계통계적 성격) • 회귀분석 : 독립변수와 종속변수가 모두 간격척도, 비율척도로 측정된 경우 변수들간의 관계에 관한 분석(예외적으로 더미변수가 독립변수로 사용되면 이는 명목척도). • 판별분석(discriminant analysis) : 독립변수는 간격척도 또는 비율척도로 측정되었으나 종속변수는 명목척도(또는 범주척도, 분류척도)로 측정된 경우 독립변수와 종속변수의 관계를 조사하는 분석방법으로 마케팅에 매우 유용하게 이용될 수 있음. • 두 집단 판별분석 : 종속변수의 범주가 두 개인 경우의 판별분석. • 다중판별분석 : 종속변수의 범주가 세 개 이상인 경우의 판별분석. • 기본적으로 집단내 분산에 비해 집단간 분산의 차이를 최대화하는 독립변수들의 계수를 찾아야 하며, 이때 독립변수들의 선형결합을 판별함수(혹은 판별식)라고 한다. 제 16 장 판별분석

  2. 정수기 제조회사가 신제품 정수기를 개발하여 10명의 주부들에게 한동안 제품을 시험사용하게 한 후 세 가지 속성을 10점 척도로 평가하도록 하고 구매의도를 질문(10점 척도로 평가). 두 그룹간의 차이가 내구 성에서는 매우 높게 나타났으며, 그 다음 성능, 그리고 스타일 에서는 매우 낮게 나타남.

  3. 판별분석 결과에 의해 • 어떤 변수(들)가 어느 방향(正/負)으로 얼마만큼 판별점수에 영향을 미치는지 알 수 있음(회귀분석의 개별 회귀계수의 역할과 유사). • 새로운 대상의 독립변수의 값에 대한 정보가 있을 때 판별점수를 계산함으로써 그 대상이 어느 범주에 속할 것인지를 예측(회귀분석에서 회귀식을 이용하여 독립변수의 값들로부터 종속변수 값을 예측하는 것과 유사). → 스타일이 높다고 해서 구매할 것 같지 않으며, 내구성을 높게 평가하는 그룹이 구매할 가능성이 높으며, 영향력은 내구성 > 성능 > 스타일이다. • 판별분석을 위한 가정 • 독립변수들이 다변량 정규분포(multivariate normality)를 이루며, • 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬(variance-covariance matrices)이 동일해야 한다. • 다중정규성 가정을 충족시키지 못하는 자료를 판별분석을 하는 경우 : 판별함수의 추정에 문제를 야기시키며, 이 경우 logistic regression이 사용될 수 있다. • 분산-공분산 행력이 동일하다는 가정이 충족되지 못하는 경우 : 보다 큰 분산-공분산 행렬을 갖는 그룹에 많은 관측치가 분류되는 문제점 발생. 다중정규성 가정을 엄격하게 요구하지 않음.

  4. 판별함수 계산 판별함수의 판별력(discriminatory power)의 통계적 유의성 점검 : Wilks’ lamda가 주로 사용되며, χ2검증을 실시. 다중회귀분석에서 F-검증에 의해 회귀식이 유의적인 것으로 판명되었다 하더라도 R2가 높을수록 그 회귀식의 설명력이 높은 것으로 받아들이는 것과 유사하며, 판별함수의 판별력은 유의적으로 나타나더라도 두 집단의 경우 hit ratio가 예를 들어 53% 밖에 되지 않으며 판별력이 좋다고 할 수 없다. 이는 두 집단의 크기가 같은 경우 임의적 분류를 하더라도 hit ratio는 50%이기 때문이다. : 회귀분석의 R2에 해당하는 값은 판별분석에서 hit ratio(정확히 분류된 대상의 수를 전체 대상의 수로 나눈 값으로 0과 1 사이의 값). 판별함수의 전반적 적합도(overall fit) 점검 • 판별함수의 수와 판별분석을 위한 표본의 크기 • “종속변수 집단 수 – 1”과 “독립변수의 수” 중에서 작은 값만큼의 판별함수가 만들어짐. • 판별분석을 위해서는 관측치의 개수(표본의 크기)가 독립변수 수의 20배 이상이 되는 것이 요구되며, 종속변수의 각 범주에 최소한 20개가 요구하며, 표본의 크기가 이를 충족시키지 못하면 분석결과는 불안정(unstable : 판별식을 구성하는 각 독립변수와 전체 판별식의 설명력과 예측력을 신뢰할 수 없다는 의미)해 짐. • 판별식의 추정과 적합도 평가 • 동시입력방식(simultaneous estimation) : 모든 독립변수들에 대한 계수 동시에 계산. • 단계입력방식(stepwise estimation) : 판별력이 높은 순서로 입력되어 추정이 이루어짐.

  5. ( 판별분석 방법 ) 판별분석방법 동시입력방식 단계입력방식 • 판별분석의 예(두 집단 판별분석 ; 동시입력방식에 의한 판별분석한 결과)

  6. 비율척도 간격척도 • 집단통계량 네 개 변수 모두 에서 집단 2는 집단 1보다 높게 나타남.

  7. 두 집단을 구별하는데 직무성적이 가장 유용한 변수일 것으로 추정할 수 있다. • Wilks’ lamda : 집단내 분산/(집단내 분산 + 집단간 분산)의 비율로서 집단간 분산이 집단내 분산에 비해 클수록 0에 가까워지며, 반대의 경우 1에 가까워지고 분산분석의 F값과는 반대방향을 갖는다. 차이검증(ANOVA) 결과 두 집단간에 사교성, 경력, 직무성적의 차이는 유의적이나 평점의 차이는 비유의적으로 나타남.

  8. 공분산 행렬과 Box’s M-검증

  9. 정준판별함수(Canonical Discriminant Function) 공분산 행렬이 동일성 가정에 위배되지 않음 을 보여줌. 정준상관계수(canonical correlation coefficient) : 제곱하면 (.570)2 = .3249로, 이는 종속변수 분산의 32.49%가 네 개의 독립변수들에 의해 설명됨을 의미. 유의적 : 판별함수가 유용함을 나타냄. 독립변수들에 걸쳐 두 집단간에 차이가 있는지를 검증하는 것으로 검증결과 유의적으로 나타나 네 개의 독립변수들에 걸쳐 두 집단간에 유의적인 차이가 있는 것으로 나타남.

  10. 표준화된 정준판별함수계수와 구조행렬 • 표준화된 정준판별함수 계수(standardized canonical discriminant function coefficient) : 표준화된 계수로서 각 변수가 판매원들의 소속집단을 설명하는데 있어서 상대적 중요도를 나타냄(직무성적이 가장 중요 ← 판별력이 가장 큼) → 회귀분석의 표준화된 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값을 표준화 한 것. 판별적재값 : ± .3 이상이면 유의적인 것으로 본다. • 구조행렬(structure matrix) : 각 변수와 표준화된 정준판별함수간의 상관관계를 나타내며, 상관관계 값은 판별적재값(discriminant loading)이라고 하며, 요인분석의 요인적재값에 비유될 수 있음. • 직무성적과 판별함수간의 상관관계가 가장 높게 나타남. • 판별력 : 전통적으로 표준화된 판별계수를 이용하였으나, 다중회귀분석의 경우와 유사하게 각 변수의 판별력이 “다중공선성(multicollinearity)”때문에 낮게 나타날 수 있어 판별력의 크기는 구조행렬로 판단(직무성적 >사교성 > 평점 > 경력).

  11. 정준판별함수계수와 중심값(centroid) • 표준화되지 않은 정준판별함수계수(unstandardized discriminant function coefficient) : 회귀분석의 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값이며, 판별점수(Z)를 계산하는데 사용. • 판매원 1의 판별점수 = .039×23 - .544×2.28 + .168×3 + .091×57 • - 8.128 = - 2.803 • 판매원 1은 원래 집단 1에 분류 → 각 집단에 속한 판매원들의 판별점수를 구하고 이 값들의 평균 : 각 집단의 중심값(centroid). • 좌측의 표는 각 집단의 중심값을 나타내고, 이 표를 통해서 두 집단 구성원들의 전체평균이 0 임을 알 수 있다.

  12. 집단 1 집단 2 - 1 -.862 0 + 1 .541 • 분류함수계수 • 집단 1은 집단 2보다 평균값 0으로부터 더 멀리 떨어져 있다. 그러므로 -.862×27 + .541×43 = 0으로 전체평균이 0 임을 알 수 있다. id 1의 각 값을 집어 넣었을 때 값을 통해 집단 1로 제대로 분류되었는지를 확인할 수 있다. • 분류함수(classification function) 또는 Fisher’s선형판별함수(linear discriminant function) : 각 집단별로 생성되며(집단의 수만큼 생성), 새로운 분류대상이 있을 때 그 분류대상의 독립변수 값들을 분류함수에 삽입하여 계산한 결과 큰 값으로 나타나는 집단에 분류된다. • 새로운 판매사원의 네 가지 독립변수 값들이 다음과 같은 경우 : • 사교성 : 40, 평점 : 3.00, 경력 : 7, 직무성적 : 80 • 집단 1 : .233×40 + 2.581×3.00 + .848×7 + .623×80 – 33.277 = 39.562 • 집단 2 : .288×40 + 1.803×3.00 + 1.084×7 + .751×80 – 44.462 = 40.135

  13. 원래 집단 1의 27명 중 20명이, 집단 2의 43명 중 32명이 정확하게 분류. 회귀분석의 R2와 유사 : 설명, 즉 제대로 판별되었는지를 나타낸다. • 위 식을 통해 집단 2의 값이 더 크므로 이 판매원은 집단 2로 분류된다. • 분류함수와 정준판별함수의 구별 • 분류함수 : 집단의 수만큼 도출되며, 기존 분석의 대상이 된 판매원이나 새로운 판매원이 어느 집단에 분류될 것인지를 예측하는데 사용. • 정준판별함수 : “집단의 수 – 1”과 “독립변수의 수” 중에서 작은 수만큼 도출되며, 기존 분석의 대상이 된 판매원들이 소속된 각 집단의 중심값(cetroid)을 계산하는데 사용. • 분류결과 • 조사대상 판매원들의 실제소속집단과 분류함수에 의한 예측소속집단의 교차표로서 분류함수가 표본판매원들의 분류를 얼마나 잘 예측하는가를 나타낸다. • 전체적으로 70명 중 52명이 정확하게 분류되어 hit ratio는 74.3%이다.

  14. 판별분석 결과 해석 시 중점사항 요약 • 공분산행렬과 Box’s M검증 : 분류집단들의 공분산행렬의 동일성 가정을 검증하는 것으로 p-value> .05이면 가정을 충족. • 정준판별함수 : Wilks’ lamda값의 χ2-검증결과 p-value< .05이면 집단간에 유의적이 차이가 있다. • 표준화된 정준판별함수 계수와 구조행렬 : 독립변수의 판별력을 보여주는데 구조행렬상에 있는 계수(판별적재값)가 많이 사용되며, 계수값이 클수록 판별력이 크다. • 정준판별함수 계수와 중심값(cetroid) : 정준판별함수 계수는 회귀분석의 회귀계수에 비유될 수 있으며, 각 집단의 중심값을 계산하는 데 사용됨. • 분류함수 계수 : 새로운 분류대상을 어느 집단으로 분류할 것인가를 결정하는 데 사용되며, hit ratio계산을 위하여 원자료 구성원의 독립변수 값들로부터 소속될 집단을 예측하는데 사용됨. • Hit Ratio : 판별함수가 조사대상을 얼마나 잘 분류할 수 있는가를 나타내는데, 회귀분석의 R2에 비유될 수 있다.

More Related