1 / 110

제 5 장

제 5 장. 통계적 추론. 1. 추 정 (Estimation) 2. 가설검정 (Hypothesis testing). 개 요. 자료로부터 정보를 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정을 통계적 추론 (statistical inference) 이라 한다 . 통계적 추론에서는 결론 ( 의사결정 ) 의 신빙성을 수치로 나타내기 위하여 확률을 이용하는 것이 그 특징이다 . 통계적 추론은 그 목적에 따라 여러 가지가 있으나 이들 중 가장

lesa
Download Presentation

제 5 장

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 제 5 장 통계적 추론 1. 추 정 (Estimation) 2. 가설검정 (Hypothesis testing) 개 요 자료로부터 정보를 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정을 통계적 추론(statistical inference)이라 한다. 통계적 추론에서는 결론(의사결정)의 신빙성을 수치로 나타내기 위하여 확률을 이용하는 것이 그 특징이다. 통계적 추론은 그 목적에 따라 여러 가지가 있으나 이들 중 가장 기본이 되는 것은 추정(estimation)과 가설검정(hypothesis testing)이라고 불리 우는 가설에 의한 추론이다. 이 장에서는 이들의 기본개념과 적용사례에 대해 알아본다.

  2. 학습 목표 1. 추정과 검정에 대한 개념 및 기초적인 수학적 이론을 알 수 있도록 한다. 2. 계량형 및 계수형 데이터에 대한 추정과 검정을 실시하는 방법 및 분포함수를 적용하는 사례를 연구하여 분포함수의 올바른 사용법을 학습토록 한다. 3. 수집된 표본집단의 데이터를 이용하여 모집단에 대한 통계적 특성을 파악하는 능력을 향상시키고자 한다. 주요 용어 • 추정: 표본을 이용하여 이러한 모집단의 특성 값에 대한 추측 값을 제공하고 그 오차한계를 제시하는 과정을 추정(estimation)이라고 한다. • 가설검정 : 어떤 모집단의 가설을 설정하고, 가설의 성립여부를 시료의 데이터로 • 판단하여 통계적인 결정을 내리는 것을 말한다. • 귀무가설 : 표본집단은 비교하고자 하는 집단 혹은 모집단과 차가 없다고 생각한다. 이것을 “귀무가설”이라고 하고 기호 Ho 로 표시한다. • 검정통계량 : 귀무가설”Ho 를 기각할 것인지 아닌지를 결정하기 위해 표본 통계량에 대해서 계산을 해 얻어진 값을 말한다. • 유의수준 :“귀무가설”Ho 가 참인데도 측정치에 의하여 Ho 가 버려질 확률의 값을 말한다.

  3. 1. 추정 (Estimation) ♧ 추정(Estimation)이란? 통계적 추론에서 가장 기본적인 추측의 대상은 모집단의 평균, 표준편차, 비율 등과 같은 모집단의 특정 값이다. 표본을 이용하여 이러한 모집단의 특성 값에 대한 추측 값을 제공하고 그 오차한계를 제시하는 과정을 추정(estimation)이라고 한다. 이러한 추정의 개념을 이해하기 위하여 모평균 μ의 추정에 대한 다음의 예를 들어보자.

  4. 예제) 조립부품의 이음매 부분의 내경 치수관리를 하고 있다. 금일 입고된 부품의 검사를 위해서 9개의 샘플을 가지고 모집단인 당일 입고된 전체의 모평균을 95%의 신뢰도를 가지고 추정하고자 한다. 1) 이부품의 이제까지의 공정Data 분석결과 표준편차가 0.3이라고 할 때 오늘 입고된 부품의 평균을 추정하세요. 2) 이 부품에 대한 기존의 측정Data는 보존되어 있지 않다고 한다. 오늘 입고된 부품의 평균을 추정하세요. 측정 Data : 7.0, 7.1, 6.8, 7.1, 7.0, 7.4, 7.2, 6.8, 6.6 1. 추정 (Estimation)

  5. = (7.0 + 7.1+ 6.8+ 7.1+ 7.0+ 7.4+ 7.2+ 6.8+ 6.6)/9= 7.0 σ α/2 α/2 1. 추정 (Estimation) • 이부품의 이제까지의 공정Data 분석결과 표준편차가 0.3이라고 할 때 오늘 입고된 • 부품의 평균을 추정하세요. 이제까지의 공정Data를 가지고 있는 경우에는 그 Data를 표준편차가 모집단의 표준 편차 σ이고, 이때의 당일 측정한 Data의 평균으로부터 부품의 평균을 추정하면..

  6. 1. 추정 (Estimation) 2) 이 부품에 대한 기존의 측정Data는 보존되어 있지 않다고 한다. 오늘 입고된 부품의 평균을 추정하세요. 입고 부품에 대하여 이제까지 측정을 하였더라도 Data가 보존되어 있지 않기 때문에 이 부품에 대한 표준편차를 알 수가 없다. 샘플의 평균과 표준편차로부터 부품의 평균을 추정하면…. t (n – 1 ; α) =

  7. 그렇죠 ! 그래서 지속적인 공정 Data의 관리가 중요하죠. 나중에 유사공정분석에도 아주 유용하게 사용됩니다. 모집단의 표준편차를 알고 있으면 평균을 추정하는데 보다 정확한 추정이 가능하겠군요! 1. 추정 (Estimation) “결과 1)과 결과 2)”에는 약간의 차이를 보이고 있다. 과거의 공정 Data를 가지고 있을 경우에 모집단의 표준편차를 알 수 있으므로 보다 정확한 결과를 추정할 수 있다. 결과 2)의 경우에는 표준편차를 모집단의 표준편차를 샘플의 표준편차로서 추정하여야 함으로 이에 따르는 오차를 줄이지 않는 한(=샘플의 크기를 크게 하지 않는 한) 정확한 추정이 어렵다.

  8. 1. 추정 (Estimation) ♧ 추 정 용 어 용 어 내 용 점 추 정 분포의 기대치를 이용하여 단 하나의 값으로 모수를 추정하는 것. 구간추정 모수가 일정한 확률로 어느 한계 내에서 있게 될 신뢰구간을 구하는 것. 구간 추정에서는 처음부터 추정치에 어떤 폭을 가지게 하여 모수가 그 구간 내에 포함될 확률, 예를 들면 “95% 이다”와 같이 표현하는 방법을 사용한다. 여기서 모수가 그 구간 내에 포함될 확률을 신뢰율 또는 신뢰도라 한다. 신 뢰 율 (신뢰도) ※ 신뢰도, 시료, 신뢰 구간과의 관계 : 신뢰도가 증가하면 신뢰구간은 넓어지고, 신뢰도가 감소하면 신뢰구간은 좁아진다. 시료의 수가 증가하면 신뢰구간은 좁아지고, 시료의 수가 감소하면 신뢰구간은 넓어진다.

  9. 부 항 목 분 포 함 수 추정항목 구분 표준편차를 아는 경우 정규분포 한 개의 모평균의 추정 표준편차를 모르는 경우 t 분포 표준편차를 아는 경우 정규분포 독립적인 두 개의 모평균 차의 추정 표준편차를 모르는 경우 t 분포 계량치 표준편차를 아는 경우 정규분포 대응 있는 두 개의 모평균 차에 대한 추정 표준편차를 모르는 경우 t 분포 한 개의 모 분산의 추정 표준편차를 아는 경우 카이제곱분포 두개의 모 분산 차에 대한 추정 표준편차를 모르는 경우 F 분포 1. 추정 (Estimation) ♧ 추정의 분포함수

  10. 정규분포로 계산가능 np≥5이고 n(1-p) ≥5 모 불량률의 추정 np≥5이고 n(1-p) ≥5가 성립되지 않은 경우 이항분포 n1,n2가 큰 경우 정규분포로 계산가능 계수치 두 불량률의 차의 추정 m ≥ 5 정규분포로 계산가능 모 결점수의 추정 m < 5 포아송 분포 모 결점수 차의 추정 m1 ≥ 5, m2 ≥ 5 정규분포로 계산가능 1. 추정 (Estimation) ♧ 추정의 분포함수

  11. α α α α 2 2 2 2 1. 추정 (Estimation) 1-1. 모평균 μ에 대한 신뢰구간 (모 분산 σ2기지일 때) 표준정규분포; Z~N(0, 1) α 1 Z 0 Z

  12. α α α 2 2 2 1. 추정 (Estimation) 예제) 분산이 σ2 = 225 인 정규모집단으로부터 크기가 n=25 인 표본을 Random하게 추출하여 다음과 같은 자료를 얻었고 이들의 표본평균은64.32 가 되었다. 모평균 μ에 대한 95% 신뢰구간을 구하라. n α

  13. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1-Sample Z 선택 표본의 크기 표본의 평균 모 표준편차

  14. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1-Sample Z > Options 신뢰도 양측구간

  15. 1. 추정 (Estimation) 1-2. 모평균 μ에 대한 신뢰구간 (모 분산 σ2미지일 때) T 분포; T~t(n-1) α/2 α/2 1-α 0 t(n-1,α) - t(n-1,α)

  16. 1. 추정 (Estimation) 예제) 전구를 생산하는 어떤 제조업체에서는 전구를 새로운 밀봉방법에 의해 생산된 전구들의 평균 수명시간 μ를 추정하기 위해 생산된 전구들 중에서 9개를 Random하게 추출하여 수명시간을 시간단위로 측정한 결과로 다음을 얻었다. 5000, 5100, 5400, 5200, 5400, 5000, 5300, 5200, 5200. 새로운 밀봉방법에 의해 생산된 전구들의 수명시간의 분포는 정규분포를 따른다고 가정하고 모평균 수명시간 μ에 대한 90% 신뢰구간을 구하라.

  17. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1-Sample t 선택 분석할 데이터 입력

  18. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1-Sample t > Options 신뢰도 양측구간

  19. 1. 추정 (Estimation) ♧ 표본의 크기(n)가 30 이상이 된다면 표준정규분포표를 흔히 이용한다.

  20. 1. 추정 (Estimation) 1-3. 모 분산(σ2 )에 대한 신뢰구간 χ2 –분포

  21. 1. 추정 (Estimation) 예제) 어떤 회사가 생산하고 있는 나사들의 지름에 대한 분산을 추정하고자 한다. 이 회사의 나사 제품들 중에서 20개를 Random하게 추출하여 조사한 결과로 이들 지름의 표본분산이 5임을 알았다. 이 회사 나사 제품들의 지름의 분포는 정규 분포를 따른다고 가정하고 모 분산 σ2 에 대한 95% 신뢰구간을 구하라.

  22. 1. 추정 (Estimation) 1-4. 두 모평균들의 차 μ1-μ2에 대한 신뢰구간 ( σ1 2, σ2 2 ; 기지)

  23. 1. 추정 (Estimation) 예제) 두 기업들에서 각각 A상표 전구들과 B상표 전구들을 생산하고 있다. 생산된 A상표 전구들과 B상표 전구들 중에서 독립적으로 각각 40개와 50개를 Random하게 추출하여 조사한 결과로 각 표본평균 수명시간이 418시간과 402시간임을 알았다. 두 상표 전구의 수명 시간들은 각각 정규분포를 따르며 모 표준편차가 26시간과 22시간임이 알려져 있다고 가정하고 두 상표 전구의 모평균 수명 시간들의 차에 대한 95% 신뢰구간을 구하라.

  24. n1와 n2의 표본의 표준 편차를 Pooling(합) 해서 구한다. 1. 추정 (Estimation) 1-4. 두 모평균들의 차 μ1-μ2에 대한 신뢰구간 ( σ1 2, σ2 2 ; 미지, σ12 =σ2 2 )

  25. 1. 추정 (Estimation) 예제) 어떤 화학약품의 제조에 상표가 다른 2종류의 원료를 사용하고 있다. 각 원료에서 그 주성분 A의 함량은 아래와 같다. 상표 1의 주성분 A의 평균함량을 μ1, 상표 2의 주성분 B의 평균함량을 μ2라고 할 때 μ1-μ2 의 신뢰구간을 구하라. (단 모 분산이 같다고 한다.)

  26. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2-Sample t 분석할 데이터 입력 선택 두 집단의 표준편차 동일하다고 가정

  27. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2-Sample t > Options 신뢰도 양측구간

  28. * * * Ø Ø Ø 1. 추정 (Estimation) 1-4. 두 모평균들의 차 μ1-μ2에 대한 신뢰구간 ( σ1 2, σ2 2 ; 미지, σ12 ≠σ2 2 )

  29. 을 모르지만 서로 대응인 경우 두 정규 짝 지워진 표본의 두 모 분산 모집단으로부터 크기가 n 인 확률표본 d1, d2, d3,…,dn에 의해 정의되는 표본평균과 각 표본분산을 각각 라고 한다면 모평균 에 대한 신뢰구간은 다음과 같다. 1. 추정 (Estimation) 1-4. 두 모평균 μ1-μ2에 대한 신뢰구간 ( 짝 지워진 표본 )

  30. 1. 추정 (Estimation) 예제) 어느 대기업에서는 직무교육이 근로자들의 능률향상에 효과가 있는지를 추정 하고자 한다. 이를 위해 이 기업에서는 전체 근로자들 중에서 10명을 Random하게 추출하여 이들에게 직무교육을 실시하기 전과 실시한 후의 각 작업능률을 점수로 측정하였더니 다음 표와 같았다. 위 결과로 직무교육을 실시하기 전과 실시한 후에 기업 전체 근로자들의 평균 작업능률의 차 μ1-μ2 에 대한 95% 신뢰구간을 구하라.

  31. 1. 추정 (Estimation)

  32. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > Paired t 선택 분석할 데이터 입력

  33. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > Paired t > Options 신뢰도 양측구간

  34. 1-5. 두 모 분산 비 에 대한 신뢰구간 1. 추정 (Estimation)

  35. F-분포 (F-Distribution) α α 2 2 (n1 – 1, n2 – 1, 1 – ) 1. 추정 (Estimation) (n1 – 1, n2 – 1, )

  36. 1. 추정 (Estimation) 예제) 어떤 화학제품 안에 들어있는 X 성분의 양을 두 가지 측정방법에 의해서 측정한 데이터는 다음과 같다. 방법 1,2의 95% 신뢰구간 모 분산 비를 구하라

  37. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2 Variances > Options 분석할 데이터 입력 선택 신뢰도

  38. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2 Variances > Options

  39. 1. 추정 (Estimation) 1-6. 모 비율 P 에 대한 신뢰구간

  40. 1. 추정 (Estimation) 예제) 어떤 공장의 제품들로부터 크기가 n=500 개의 표본을 Random하게 추출해서 조사한 결과로 160 개의 불량품을 얻었다. 이 공장 제품들의 불량품 비율 P에 대한 95% 근사 신뢰구간을 구하라.

  41. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1 Proportion 표본의 크기 선택 표본의 불량

  42. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 1 Proportion > Options 신뢰도 양측구간 정규분포에 근거한 신뢰구간

  43. 1. 추정 (Estimation) 1-7. 모 비율차 P1-P2 에 대한 신뢰구간

  44. 1. 추정 (Estimation) 예제) 어떤 공정에서 원료는 A, B 두 회사로부터 납품되고 있다. 이 두 회사의 원료에 대해서 제품에 미치는 불량률(회사 A, B의 불량률은 각각 P1, P2 라 하자)차를 조사하기 위하여 회사 A, 회사 B의 원료로 만들어진 제품 중에서 Random하게 각각 120개, 150개의 제품을 추출하여 불량개수를 찾아보니 각각 12개, 9개 였다. p1-p2의 95% 근사 신뢰구간을 구하라.

  45. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2 Proportion 선택 표본의 크기 표본의 불량

  46. 1. 추정 (Estimation) • Mini TAB 분석 예 * Stat > Basic Statistics > 2 Proportion > Options 신뢰도 양측구간 정규분포에 근거한 합동 추정량을 사용한 신뢰구간

  47. 가설검정(Hypothesis testing)이란? 어떤 모집단의 가설을 설정하고, 가설의 성립여부를 시료의 데이터로 판단하여 통계적인 결정을 내리는 것을 말한다. 예로서 모평균이 기준치 μ와 다른가 어떤가의 검정은 다음과 같은 논리로 한다. 최초에 모평균은 기준치 μ는 차가 없다고 생각한다. 이것을 “귀무가설이(Null Hypothesis)”라고 하고 기호 Ho 로 표시한다. 다음에 실제로 측정치를 취하여 이 가설이 옳다고 하기에는 이와 같은 결과가 나타날 확률 α 가 너무나 작은 값으로 인정되면 처음의 가설 Ho을 버리고 모평균은 기준치는 다르다. 이것을 “대립가설(Alternative Hypothesis)”이라 하고 H1 로 표시한다. 즉, “귀무가설”Ho 을 “버릴 것”(기각)인지 혹은 채택할 것인지를 통계적으로 판단하는 것을 검정이라 한다.

  48. 사실 H0 H1 정확한 결정 1- α 제 2 종 오류 (소비자손실) β H0 채택 제 1 종 오류 (생산자손실, 유의수준) α 정확한 결정 1- β H1 2. 가설검정 (Hypothesis testing) -귀무가설(Null Hypothesis:H0): 변화나 차이가 없음을 설명하는 가설 -대립가설(Alternative Hypothesis:H1): H0가 기각되면 참(True)이 됨을 설명하는 가설 -제1종 과오: “귀무가설”이 옳은 데도 불구하고 이를 기각해 버리는 과오.→ α(Alpha) -제2종 과오: “귀무가설”이 옳지 않는데도 불구하고 이를 채택하는 과오. → β(Beta) • 1 - α : 신뢰도 • 1 - β : 검출력

  49. 2. 가설검정 (Hypothesis testing) ♧ 가설검정의 용어정의 * 검정통계량(Test Statistic); H0 를 기각할 것인지 아닌지를 결정하기 위해 표본 통계량에 대해서 계산을 해 얻어진 값. * 유의수준(Significance Level); “귀무가설”Ho 가 참인데도 측정치에 의하여 Ho 가 버려질 확률, 즉 제1종 과오의 확률. • * P-value(Attained Significance Level); 계산된 기각역의 확률 값. • - P 값이 실험자가 선택한 α값보다 작으면 귀무가설 Ho을 기각하고, • P 값이 α값보다 크면 귀무가설 Ho을 채택 • - P 값 활용의 이점 : 계산된 검정 통계량의 유의수준을 판단할 수 있음.

  50. p 값 a(유의수준) 채택역 기각역 검정 통계량 임계치 혹은 유의치 (Critical Value) 2. 가설검정 (Hypothesis testing) ♧ 가설검정의 용어정의 * 채택역(Acceptance Region); 귀무가설을 채택하는 영역 ▶ 검정 통계량이 채택역에 있으면 대립가설을 기각하고, 귀무가설을 채택함. * 기각역(Rejection Region); 귀무가설을 기각하는 영역 ▶ 검정 통계량이 기각역에 있으면 귀무가설을 기각하고, 대립가설을 채택함.

More Related