230 likes | 497 Views
자료분석의 준비 자료의 타당성 점검 자료의 타당성 ( data validation ) : 서베이 ( 인터뷰 ) 가 실제로 적절히 수행되었는가와 관련 것으로 면접원이 마음대로 조작한 설문응답을 분석의 대상에 포함시키면 이는 noise 로 작용하므로 설문지에 응답자의 성명과 전화번호를 기입하도록 하고 , 10 ~ 20% 의 응답자들에게 자료 수집직후에 전화를 하여 타당성을 점검할 수 있다 .
E N D
자료분석의 준비 • 자료의 타당성 점검 • 자료의 타당성(data validation) : 서베이(인터뷰)가 실제로 적절히 수행되었는가와 관련 것으로 면접원이 마음대로 조작한 설문응답을 분석의 대상에 포함시키면 이는 noise로 작용하므로 설문지에 응답자의 성명과 전화번호를 기입하도록 하고, 10 ~ 20%의 응답자들에게 자료 수집직후에 전화를 하여 타당성을 점검할 수 있다. • 부적절한 설문응답지는 폐기해야 함은 물론이고, 만약 어떤 면접원이 인터뷰한 설문응답지의 다수에 문제가 있으면 그 면접원의 설문 응답지 전체를 대상으로 타당성을 점거하거나 모두 계기해야 한다. • 자료의 타당성 점검을 위해 고려해야 할 다섯 가지 측면 • 실제로 그 응답자가 설문에 응답했는가 ? : 자료의 타당성 점검에서 가장 중요하며, 면접원 자신이 설문지에 임의로 응답하지 않았는지를 점검하는 것. • 응답자가 응답자로서 적격한 사람인가 ? : 설문지의 첫 부분에 적격한 응답자 선정을 위한 질문이 주어지는 경우가 많다. • 미리 정해진 인터뷰 절차를 제대로 따랐는가 ? : 사전에 정해진 절차를 따라 인터뷰가 수행되었는가 하는 점. • 응답자 자신이 설문의 응답을 모두 하였는가 ? • 면접원이 예의바르게 행동하고 미리 준비한 선물을 제공했는가 ? 제 11 장 자료분석의 준비와 기초통계
자료의 편집(editing) : 면접원 혹은 응답자의 실수를 점검하고 수정하는 것으로 가급적 자료수집 직후에 하며, 응답자와의 접촉이 불가능한 경우에는 그 부분을 결측값(missing value)으로 처리하거나 설문지 전체를 폐기할 수 있다. • 모든 필요한 질문에 대한 응답이 있는가 ? : 면접원 또는 응답자의 실수로 응답이 없는 경우 전화 등을 이용하여 답변을 획득(이러한 과정을 통해서도 응답하지 않은 부분은 코딩시 결측값으로 처리하고, 아주 많은 부분에 대하여 응답이 되지 않은 설문지는 폐기). • 적격성 판단을 위한 질문에 응답이 행해졌는가 ? : 사후적으로 결정. • 개방형 질문의 경우 응답이 유용한 응답인가 ? : 응답이 구체적이지 못한 경우 탐사질문(probing questions)에 의해 응답을 획득할 수 있으나 제대로 되지 않았다면 사후 편집과정에서 보완되어야 한다. • 기술한 내용을 읽고 이해할 수 있는가 ? • 응답에 일관성이 있는가 ? 일관성이 결여되어 있다.
자료의 코딩(coding) : 수집된 응답자료를 컴퓨터에 입력하기 위하여 숫자로 표현하는 것으로 자료를 코딩할 때 가장 중요한 사실은 분석방법을 생각하면서 코딩해야 하는 것이다. ∴ 설문지 – 코딩 – 분석이 연계성을 갖도록 설문지가 개발되어야 한다. • ID부여 : 개인별로 ID(Identification number)를 기입하는데, 응답자의 숫자에 따라 column의 수가 결정됨. • 단일 응답 혹은 복수 응답 • “다음의 콘도나 리조트 중 가장 많이 이용해 보신 경험이 있는 것은 어떤 것입니까 ? 하나만 표시해 주십시오. → 응답대안이 10개이므로 01 ~ 10 중 한 번호로 코딩한다. • “다음의 콘도나 리조트중 직접 이용해 보신 경험이 있는 것은 어떤 것들입니까 ? 해당 난에 모두 표시해 주십시오.” → 각각의 콘도, 리조트는 하나의 칼럼에 코딩하며, 이용경험이 있으면 1, 없으면 0으로 코딩하므로 전체 9개 칼럼을 사용.
개발형 질문(open-ended questions) : 코딩방법에 대한 사전 지침을 매우 구체적으로 마련해야 하며, 이를 위해 응답자들의 응답을 개략적으로 살펴보고 몇 가지 유형으로 나누어 범주를 정하게 되는데, 필요에 따라 코딩을 진행하면서 범주대안을 추가할 수도 있다. 이때 “기타” 범주에 너무 많이 분류되지 않도록 한다. 많은 응답들이 기타에 분류되면 분석결과의 가치가 떨어지기 때문이다. • 결측값(missing value) : 처리 시 변수의 값이 가질 수 있는 대안 이외의 값을 부여(응답자가 응답을 하지 않은 경우). • 부여하는 값의 크기 : 응답이 정도 혹은 긍정/부정의 형태인 경우 많은 정도 또는 보다 긍정적일수록 높은 값을 부여하며 분석결과의 해석이 용이(역 척도(reverse scale)인 경우 그대로 코딩하고 분석을 위한 명령에서 recode명령을 주면 됨). • 코딩담당자(coder) : 개방형 질문에 대한 응답을 코딩할 때 주어진 지침에 따라 진행하며, 설문지가 많은 경우 1 인당 몇 개 설문지의 모둔 문항을 맡아서 코딩하면 일관성이 떨어지므로 코딩담당자별로 몇 개의 문항을 맡아서 하면 코딩의 일관성을 유지할 수 있고 효율성을 높일 수 있다.
자료코딩의 예(Cable TV Shopping에서 구매경험이 있는 소비자들에게 의견을 조사)
HWP나 word processor에서 코딩할 경우에 필요하나 SPSS의 데이터 편집기에 직접 입력한느 경우에는 ID번호를 코딩하지 않는다.
통계학의 종류와 기본용어 • 기술통계학(descriptive statistics) : 주어진 자료의 특성을 그대로 기술하는 것(1년간 월평균 매출, 부서별 사원 수, 연령별 인구 등). • 추계통계학(inferential statistics) : 표본의 특성으로부터 모집단의 특성을 추정(infer)하는 것. 추계통계학은 표본의 통계량으로부터 모집단의 모수를 추정하는 것에 관한 것. • 모수(母數 ; parameter) : 추계통계학에서 모집단의 특성을 나타내는 값. • 통계량(statistics) : 표본의 특성을 나타내는 값.
불편추정치(자유도) ( N : 모집단의 크기, n : 표본의 크기 )
추정의 오류진단과 표본분포 • 추계통계학 : 표본의 특성값(통계량)으로부터 모집단의 특성값(모수)을 추정하는 것과 관련되어 있기 때문에 추정한 값이 오류를 내포할 가능성을 언제나 존재. • 표본분포(sampling distribution) : 표본통계량의 분포를 말하며, 이에 대응되는 개념으로는 모집단분포가 있다. <참고> • Sampling distribution : 같은 크기의 표본을 반복적으로 추출했을 때 각 표본의 통계량의 분포. • Sample distribution : 하나의 표본을 추출했을 때 그 구성요소들의 분포. • 표본의 수와 표본의 크기를 구분해야 함. • 모집단분포(population distribution) : 모집단 구성요소들의 분포. 표본평균값들의 도수분포로 종모양의 분포, 즉 정규분포(normal distribution)에 가깝게 보여진다. 표본분포의 대표적인 것으로 평균의 표본분포(sampling distribution of means)로서, 이는 크기가 동일한 표본을 무한히 추출했을 때 표본평균값들의 분포인데 실제표본추출을 무한회수로 추출하는 것이 불가능하므로 표본분포는 가설적인 것이라 하겠다.
표본평균의 분포 • 평균의 표본분포의 성격 : 중심극한정리(central limit theorem)로 표현됨 – 평균 μ와 표준편차 σ를 갖는 모집단에서 크기 n의 표본을 반복적으로 추출하면 표본평균 의 분포는 정규분포와 근사하게 되며, 평균 μ와 표준편차 이 된다. 이 때의 표준편차, 즉 표본분포의 표준편차를 표준오차(standard error)라고 부른다. 그리고 표본분포는 표본의 크기가 클수록 정규분포에 보다 근사하게 된다. 평균의 분포가 된다. 표본 1 크기 n 모집단 크기 N 표본 2 크기 n 표본 3 크기 n · · · · · · · · · · · · · · · ·
가설검정에서 표준오차는 매우 중요한 개념인데 평균의 표본분포의 표준오차는 이지만σ를 모르면 대신 s, 즉 표본의 표준편차를 사용. • 표준오차 : • 비율의 표본분포의 경우 표준오차 이며, 이 경우도 역시 p와 q를 모르는 경우 표본의 비율값인 와 을 사용하여 다음과 같이 표현한다. • 가설검증의 기초 • 귀무가설과 대립가설 • 가설(hypothesis) : 연구자가 어떤 현상에 대해 “그럴 것이다”라고 추측하는 부분으로 연구가설(research hypothesis)이라고 하며 모집단에 대한 추정이 된다. • 대립가설(alternative hypothesis) : 연구자가 믿는 그리고 지지하기를 원하는 가설. • 귀무가설(null hypothesis) : 대립가설의 반대에 해당하는 진술이며 바로 검증(test)의 대상이 된다. • 통계적 가설검증 과정에서는 귀무가설을 검증하여 reject하거나 not reject한다. 결국 “연구가설이 지지되거나 지지되지 않는다.” • 두 개간의 크기를 비교할 때 둘 간에 차이가 없다는 것을 보다 보수적인 견해로 보며, 이러한 보수적인 견해, 혹은 기존의 주장이 바로 귀무가설로 설정된다.
1종 오류와 2종 오류 • 1종 오류(type 1 error) : 귀무가설이 진실(true)인데 기각하는 오류로서 보통 1종 오류의 허용확률이 정해지는데 이를 α로 표현되며, 보수적인 입장에서 심각하게 받아들여 진다. • 2종 오류(type 2 error) : 귀무가설이 허위(false)인데 이를 기각하지 않는 오류. • α의 크기에 따라 기각역(reject region)이 정해지며, α가 클수록 귀무가설은 기각될 가능성이 높다. 따라서 α의 크기가 작을수록 기각이 어렵지만, 이때 귀무가설을 기각하면(연구가설을 지지하면) 잘못 기각했을 가능성이 작으므로 연구자는 자신의 의사결정에 보다 자신을 갖는다. 반면에 α가 클수록 H0를 쉽게 기각하므로 2종 오류 확률, 즉 β는 작아진다. 반대로 α가 작을수록 쉽게 기각하지 않으므로 β는 커진다. 이와 같이α와β는 서로 반대방향으로 작용한다. • α↑→ β↓, α↓→ β↑
α : 통계적 유의수준(statistical significance) • β : 귀무가설이 허위일 때 기각하지 않을 확률이므로 1 - β는 귀무가설이 허위일 때 기각할 확률이며, 다른 말로는 연구가설이 옳을 때 연구가설을 지지할 확률이므로 1 - β를 통계적 검증력(statistical power)이라고 부른다. 그런데 1 - β가크면 귀무가설이 허위일 때 쉽게 기각할 수 있어 1 - β는 클수록 바람직하게 생각되지만, 이 경우β는 작아지고 α는 다시 커진다. 반대로 α를 작게 하면 β가 커지게 된다. • ∴ 연구자 혹은 의사결정자는 적당한 수준의 α크기를 정할 수 밖에 없기 때문에 0.01과 0.1 보다는 0.05가 더 자주 이용되는 경향이 있다. • 가설검증 절차 • 귀무가설과 대립가설 설정. • 가설의 성격에 따라 Z-검증, t-검증, F-검증, χ2검증(chi-square test) 중 어떤 검증을 할 것인지를 결정(관심과 모수에 따라 결정). • 통계자료로부터 검증통계량이 계산됨(Zobs, tobs, Fobs, χ2obs ; 여기서 obs는 observed value,즉 관측치를 나타낸다). • 통계표로부터 Zcrit, tcrit, Fcrit, χcrit2를 발견하고 기각역과 채택역이 설정됨(여기서 crit는 critical value,즉 임계치를 나타낸다). 1종 오류의 허용확률이 커진다는 의미.
검증통계량(test statistic)이 기각역과 채택역 중 어디에 위치하는지 본다. • 기각역에 위치하면 귀무가설을 기각하고 그렇지 않으면 귀무가설을 기각하지 않는다. • “기각하지 않는다(not reject).” 대신 “채택한다(accept).”라고 표현하면 옳지 않다. 가설검증에 따른 결정은 귀무가설의 ‘기각여부’이지 ‘기각 혹은 채택’이 아니다. 이는 ‘주어진 표본 자료로는 귀무가설이 틀렸다고 할 수 없다’는 결정이며, ‘귀무가설이 옳다’고 결정하는 것이 아니기 때문이다. • 추계통계기법에서 사용되는 검증들
가설설정 방법 • 비방향적 가설(양측가설) • 판매원의 경력에 따라 판매실적이 다르다. • 가격에 따라 수요는 달라진다. • 심장병 환자의 비율은 남·녀 간에 차이가 있다. • 맥주 한 병에 들어있는 맥주량은 640㎖가 아니다. • 방향적 가설(단측가설) ← 더 많은 정보를 가지고 있다. ∴ 더 나은 가설. • 판매원의 경력이 많을수록 판매실적은 높다. • 가격이 낮을수록 수요는 증대된다. • 심장병 환자 비율은 여자보다 남자의 경우 더 크다. • 맥주 한 병에 들어있는 맥주량은 640㎖보다 적다. • 가설표현방식 방향적 가설을 나타내는 표현으로 기각역은 좌측에 위치한다. 방향적 가설을 나타내는 표현으로 기각역은 우측에 위치한다. 비방향적 가설을 나타내는 표현으로 기각역은 좌·우에 위치한다. 귀무가설은 반드시 등호(equal sign)을 포함해야 한다.
단일모집단 평균검증(가장 기초적) : 모집단의 평균(μ)값을 일반적인 이해(또는 지금까지의 이해)와 다르게 연구자가 생각하는 경우 사용. • 모집단의 구성요소들이 정규분포를 이룬다는 가정 하에 t-test를 사용(n≥30일 때, Z-test를 사용할 수 있으나 “t-test”가 더 엄격). • 검증통계량 : • 한 백화점에서 과거 소비자 불평건수는 일평균 15건 이상이었다. 마케팅관리자는 최근 몇 개월간 소비자 만족도 향상을 위해 노력했으며, 이에 따라 평균 불평건수가 과거보다 감소했을 것으로 추측한다. 최근 29일간의 불평건수를 조사한 결과 평균 13.5건, 표준편차 4건으로 나타났다. 이러한 자료로써 마케터는 평균 불평건수가 감소했다고 할 수 있는가 ? α= 0.05에서 검증하라. • H0 : μ≥15, H1 : μ<15 (마케팅관리자가 ‘불평건수가 감소했을 것이다’ 또는 ‘불평건수가 감소했을지도 모른다’는 생각을 가지고 있으므로) • tobs = 가 어느 방향으로 표준오차의 몇 배만큼 떨어져 있는가를 나타냄.
tobs=-2.01, α=.05 -1.701 -2.01 • H1 : μ<15이므로 좌측검정이며, 기각역은 t-curve에서 좌측에 위치된다. t-curve의기각역 결정에는 자유도(degree of freedom : d.f.)가 필요하다. 단일모집단 평균검증에서 자유도는 n – 1 이므로 d.f.=28이 된다(자유도의 크기는 표본크기 – 추정하고자 하는 모수의 수이며, 이 경우 추정하고자 하는 모수는 한 개이다). α=.05와 d.f.=28로써 t-table에서 tcrit= 1.701을 찾을 수 있다. • p-value를 이용한 가설검증 : p-value는 검증결과가 유의적일 수 있는 최소한의 α이다. • tobs=-2.01은 위의 t-curve에서 –1.701보다 작으며, 기각역에 위치하므로 H0는 기각된다. 따라서 마케팅관리자는 실제로 불평건수가 줄었다는 결론을 내일 수 있다. 이 경우 불평건수가 과거 그대로 15이상인데도 이러한 결론을 내릴 가능성(즉 결론이 틀린 가능성)은 .05, 5% 미만이다. • 이 영역의 크기를 t-table(d.f.=28)에서 찾으면 0.025 <p<0.05이다. p-value에 의한 검증을 위한 규칙은 다음과 같다. • p-value≤α이면, 귀무가설은 기각. • p-value>α이면, 귀무가설은 기각되지 않는다.
tobs=-2.01 .025 2.048 -2.048 2.01 -2.01 • 위의 예에서 과거 1일 불평건수가 평균 15건이었으나 어떤 이유에서건 마케팅관리자가 이것이 맞지 않다고 생각한다고 가정하자. 이 경우는 양측검증이 된다. • H0 : μ=15, H1 : μ≠15 • t-test • tobs=-2.01 • 양측검증의 경우 α로부터 α/2가 계산되어 기각역은 다음과 같이 결정(d.f.=28) • p-value를 이용한 가설검증 • tobs는 위의 기각역에 위치하지 못하므로 H0는 기각되지 않는다. 결론적으로 마케터의 생각은 옳지 않으며 기존의 믿음 즉, μ=15를 거부할 수 없다. • 한 쪽 영역의 크기는 p/2에 해당하며, t-table (d.f.=28)에서 찾으면 0.025<p/2<0.05이다. 이를 두 배하면 0.05<p<1이 되며, 결국 p>α이므로 H0는 기각되지 않으며, 수집된 통계자료가 동일하면 양측검증의 경우 p-value는 단측검증의 정확히 2배가 되어 H0는 단측검증에 비해 양측검증의 경우 기각되기 어렵다.
단일모집단 비율검증 : 기본적으로 이항분포(binominal distribution)를 사용하나 표본의 크기가 크면 중심극한정리에 따라 비율의 표본분포(sampling distribution of proportion)가 정규분포에 가까워지므로 표본의 크기가 큰 경우(대체로 n≥30) 일반적으로 Z-test사용. • 검증통계량 : • 치약 제조회사는 전체가구 중 10% 정도가 자사의 브랜드 A를 사용하는 것으로 알고 있었다. 마케팅부서는 시장점유율을 높이기 위해 6개월간 집중적으로 프로모션 활동을 하였다. 프로모션 활동에 따라 점유율이 높아졌는지 알기 위해 표본추출에 의한 조사를 실시하였다. 조사결과 전체조사대상 200가구 중 26가구가 브랜드 A를 구매하는 것으로 나타났다. 이러한 결과에 따라 마케터는 시장점유율이 향상되었다고 할 수 있는가(α=.05)? • Ho : p=.10, H1 : p>.10 • Z-test • Zobs= • H1 : p>.10이므로 우측검증이다.
Zobs=1.41 α=.05 1.645 0.793 1.41 • 이 문제를 p-value로서 접근해 보면 표준정규분포에서 p-value는 .0793이며 이는 α=0.05보다 크므로 Ho는 기각되지 않는다. 그러나 α=0.1로 설정하면 Ho는 기각된다. • Zobs는 채택역에 위치하므로 H0는 기각되지 않는다. 결국 주어진 자료로서는 유의수준 .05에서 시장점유율이 향상되었다고 할 수 없다.