기 술 통 계 학

6 기 술 통 계 학 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도

1 기술통계학 기술통계학에 대한 이해와 기술통계학에서 사용되는 여러 용어들에 대하여 알아본다.

▶ 통계학(statistics) :일회성으로 끝나는 것이 아니라 연속성과 객관성 있는 통계조사 또는 통계실험 결과를 다루는 학문 ▶ 전수조사(census) : 인구 총조사와 같이 통계조사의 대상이 되는 전체를 조사하는 방법 (시간적․공간적, 경제적으로 많은 제약) ▶ 표본조사(sample survey) : 개개의 요소들이 선정될 가능성을 동등하게 부여하여 객관적이고 공정하게 일부 요소만을 선택하여 (임의추출;random sampling) 조사하는 방법

모집단(population) : 통계실험의 모든 대상들의 집합 ▶ ▶ 자료집단(data set) : 조사내용의 집합 예) 가구원 수의 집합 {1인, 2인, 3인, 4인, 5인, 6인이상} 자료(data) : 자료집단 개개의 성분 ▶ 관찰값(observation) : 각 자료의 관찰되거나 측정된 값 ▶

▶ 표본(sample) : 모집단으로부터 추출된 일부 대상들의 집합 ▶ 원자료(raw data) : 통계적으로 처리되지 않은 최초의 수집된 자료 ▶ 기술통계학(descriptive statistics) : 자료를 수집, 정리하여 자료가 갖는 특성을 표, 그래프 또는 그림 등에 의하여 나타내거나 분석하는 통계학의 일부 ▶ 추측통계학(inferential statistics) : 표본을 대상으로 얻은 정보 로부터 전체 자료가 갖는 특성을 과학적으로 추론하는 통계학의 일부

▶ 모수(parameter) : 모집단의 특성을 나타내는 수치 ▶ 유한모집단(finite population) : 유한 개의 자료로 구성된 모집단 ▶ 무한모집단(infinite population) : 셈할 수 있는 개수로 구성되거나 관찰값이 구간으로 나타나는 모집단 ▶ 이산자료(discrete data) : 모집단이 유한하거나 셈할 수 있는 개수로 구성되는 자료 연속자료(conrinuous data) : 이산자료가 아닌 무한모집 단을 구성하는 자료 ▶

2 자료의 정리 점도표를 비롯한 여러 가지 그림에 의하여 자료를 정리하여 그 자료의 특성을 조사하는 방법에 대하여 알아본다.

▶ 질적자료(qualitative data),범주형 자료(categorical data) : 피부색이나 혈액형 또는 지역명과 같이 숫자에 의하여 표현되지 않는 자료 양적자료(quantitative data) : 자료가 숫자로 표현되며, 그 숫자 가 의미를 갖는 자료. 크기와 대소관계를 비교가능 ▶ ▶ 명목자료(nominal data) : 숫자 그 자체로는 아무런 의미가 없고 단지 범주를 사용하기 편하도록 숫자로 대치한 자료 순서자료(ordinal data) : 순서의 개념을 갖는 질적자료 ▶ ▶ 집단화자료(grouped data) : 양적자료인 시험성적을 90점이상 A, 80∼89는 B, 70∼79는 C, 60∼69는 D그리고 59점 이하는 F라는 범주로 묶어서 나타내는 자료 A, B, C, D, F

혈액형 A형 B형 AB형 O형 인 원 7 5 4 9 ⊙ 장점 : 자료의 정확한 위치를 알 수 있으며, 수집한 자료의 흩어진 모양을 쉽게 파악 ⊙ 단점 : 자료의 수에 해당하는 점을 찍어서 나타내므로 그 수가 매우 많은 경우에는 부적당하다 점도표(dot-plot) 점도표는 질적자료뿐만 아니라 양적자료에도 사용할 수 있으며, 원자료의 특성을 그림으로 나타내는 가장 간단한 방법이다. 수평축에 범주 또는 측정값을 기입하고, 수직축에 그들의 관찰 도수를 기입한다.

도수분포표(frequency table) 질적자료에 사용하며, 각 범주와 그에 대응하는 도수 그리고 상대도수 등을 나열한 도표 ⊙ 장점 : 각 범주의 도수와 상대적인 비율을 쉽게 비교할 수 있다.

선그래프(line graph), 막대그래프(bar chart) 선그래프:각 범주에 대응하는 도수 또는 상대도수 등을 수직선으로 나타낸 그림 막대그래프:각 범주에 대응하는 도수 또는 상대도수 등을 같은 폭의 수직막대로 나타낸 그림 파레토 그림(Pareto chart):각 범주의 도수가 감소하도록 범주를 재배열한 막대그래프 ⊙ 장점 : 각 범주에 대한 도수분포표에 비하여 각 범주의 도수 또는 상대도수를 시각적으로 쉽게 비교할 수 있다.

도수 선그래프 상대도수 선그래프 도수 막대그래프 상대도수 막대그래프 파레토 그림

도수 다각형(Frequency Polygon) 각 범주에 대한 막대그래프의 상단 중심부 또는 선그래프의 점을 사선으로 연결하여 각 범주를 비교하는 그림 도수 다각형 상대도수 다각형

원그래프(Pie Chart) • 각 범주의 상대도수에 비례하는 중심각을 갖는 파이조각 모양으로 나누어진 원으로 작성한 그림 • 질적자료의 각 범주를 상대적으로 비교할 때 많이 사용한다. • 각 파이조각에 범주의 명칭과 비율 그리고 도수 등을 기입한다. • 특정 범주를 강조하기 위하여 파이조각 하나를 별도로 끄집어내기도 함

통계청 조사 자료 : 광역도시별 경제활동인구(2009년 4월) (1) 경제활동인구에 대한 도수분포표 작성 (2) 상대도수 막대그래프 작성 (3) 상대도수 다각형 작성 (4) 원그래프 작성

서울 : 울산 : 부산 : 대구 : 대전 : 인천 : 광주 : 664 1180 726 5087 544 1350 1639 = 0.455 = 0.121 = 0.146 = 0.065 = 0.049 = 0.059 = 0.105 11190 11190 11190 11190 11190 11190 11190 (1)전체 광역도시의 총경제활동인구 : 11,190명 각 도시별 경제활동인구의 상대도수 :

(4) 서울: 360•(0.455) = 163.8 부산: 360•(0.146) = 52.6 대구: 360•(0.105) = 37.8 인천: 360•(0.121) = 43.6 광주: 360•(0.059) = 21.2 대전: 360•(0.065) = 23.4 울산: 360•(0.049) = 17.6 중심각 (2) (3) 상대도수 막대그래프 상대도수 다각형

위쪽 경계 + 아래쪽 경계 2 용어설명 계급(class) : 적당한 간격으로 집단화하여 나타낸 범주들 계급간격(class width) : 이웃하는 두 계급의 위쪽 경계에서 아래쪽 경계를 뺀 값 계급값(class mark) : 각 계급의 중앙에 위치한 값, 집단화 자료의 도수분포표 양적자료를 적당한 크기로 집단화하여 좀 더 쉽게 이해하도록 적당한 간격으로 집단화하여 만든 도수분포표 • ⊙ 장점 : • 누적상대도수 즉, 분포함수가 F(x)=0.5가 되는 대략적인 중심의 위치를 알 • 수 있다. • 대략적인 자료의 흩어진 정도 파악할 수 있다. • ⊙ 단점 : • 원자료의 정확한 관찰값을 알 수 없다.

자료의 수(n)가 200개 이하 : k = n + 3에 가까운 정수 자료의 수가 충분히 크면 Sturges공식에 가까운 정수 Sturges공식: k = 1+ 3.3 log10 n ☞ 집단화 자료의 도수분포표 작성 방법 제1열 : 계급의 번호를 작성하여 기입 제2열 : 각 계급 안에 놓이는 관찰값의 도수를 기입 제3열 : 각 계급의 도수를 전체 관찰값의 상대도수를 기입 제4열 : 이전 계급까지의 모든 도수 또는 상대도수를 합한 누적도수를 기입 제5열 : 누적상대도수를 기입 제6열 : 계급의 중앙값을 나타내는 계급값을 기입 ☞ 계급의 수를 결정하는 방법

자료의 최대 관찰값 –자료의 최소 관찰값 w = k 제1계급의 하한 : 최소 단위 최소 관찰값 - 2 측정값이 120, 25와 같이 자연수인 경우 1.5, 2.4와 같이 소수점 이하 1자리수인 경우 1.05, 2.14와 같이 소수점 이하 2자리수인 경우 최소단위 : 1 0.1 0.01 경계에서의 중복을 피하기 위하여 0이상 ∼ 10미만 10이상 ∼ 20미만 방법을 사용하나 가능한 지양함. 0 ∼ 9.5 9.5 ∼ 19.5 방법을 권장 각 계급의 간격(w) :

머리의 직경이 50㎜인 볼트를 제조하는 회사로부터 100개의 볼트를 임의로 수집하여 측정한 결과 예 도수 분포표 작성 ?

max - min = 1 w = = 8 55.2 - 47.2 8 (1) 계급의 수를 결정: 총 자료수가 100이므로k = 8 (2) 최대값과 최소값을 찾는다. max = 55.2 , min = 47.2 (3) 계급 간격을 구한다. max = 55.2 , min = 47.2 (4) 1계급의 하한을 구한다. : 47.2 –(0.5) = 47.15 (5) 각 계급간격을 구한다. : 47.2 –(0.5) = 47.15 47.15-48.15 48.15-49.15 49.15-50.15 50.15-51.15 51.15-52.15 52.15-53.15 53.15-54.15 54.15-55.15 (6) 각 계급의 계급값을 구한다. 47.65 48.65 49.65 50.65 51.65 52.65 53.65 54.65 (7) 도수분포표의 제1열과 제2열에 계급번호와 계급간격을 기입하고, 차례대로 도수,상대도수,누적도수,누적상대도수,계급값 등을 기입한다.

제3계급의 후반부에 중심의 위치가 있음 계 급 계급간격 도수 상대도수 누적도수 누적상대도수 계급값 제1계급 47.15 ~ 48.15 4 0.04 4 0.04 47.65 제2계급 48.15 ~ 49.15 18 0.18 22 0.22 48.65 제3계급 49.15 ~ 50.15 36 0.36 58 0.58 49.65 제4계급 50.15 ~ 51.15 29 0.29 87 0.87 50.65 제5계급 51.15 ~ 52.15 12 0.12 99 0.99 51.65 제6계급 52.15 ~ 53.15 0 0.00 99 0.99 52.65 제7계급 53.15 ~ 54.15 0 0.00 99 0.99 53.65 제8계급 54.15 ~ 55.15 1 0.01 100 1.00 54.65 합 계 100 1.00 100 1.00 이상점(outlier) : 대다수의 자료로부터 멀리 떨어져 있는 측정값

max - min 5 98 - 25 = 15 w = = 5 • 50명의 통계학 성적 • 도수분포표를 작성 • 대략적인 중심의 위치 83 90 60 25 50 94 60 62 97 43 67 84 79 62 78 48 85 52 77 90 25 84 41 65 58 75 83 71 74 68 89 88 76 69 77 89 73 98 77 58 77 69 75 69 65 67 69 79 85 45 자료의 수가 50이므로 계급의 수를 5로 정하면, 최소값 25그리고 최대값 98이므로 계급간격 w : 제1계급의 하한을 24.5라 하면, 다음의 도수분포표를 얻는다. 대략적인 중심의 위치는 제3계급까지 누적상대도수가 0.46이고 제4계급의 도수가 17이므로 하한에 가까운 70정도로 생각할 수 있다.

히스토그램(Histogram) • 집단화 자료에 대한 도수분포표의 계급간격을 수평축에 작성하고, 수직축에 도수 또는 상대도수에 해당하는 막대모양으로 작성한 그림 • 수직축에 누적도수 또는 누적상대도수를 기입할 수 있다. ⊙ 장점: 도수분포표에 비하여 보다 더 시각적으로 중심의 위치와 자료가 어떠한 모양으로 흩어져 있는가에 대하여 쉽게 파악할 수 있다. ⊙ 단점: 각 계급 안에 놓이는 자료의 정확한 측정값을 알 수 없다.

히스토그램의 유형

도수분포다각형(Frequency Polygon) • 히스토그램의 연속적인 막대의 상단중심부를 직선으로 연결하여 다각형 • 양적자료에 대하여 시각적인 효과를 준다. • 수직축에 상대도수, 누적도수 및 누적상대도수 등을 작성할 수 있다.

우리나라 30-40대 근로자의 혈압과 50-60대 근로자의 혈압을 비교 두 그룹의 혈압을 비교하는 상대도수 분포다각형 두 그룹의 혈압별 상대도수를 먼저 구한다.

상대도수 히스토그램을 먼저 그리고, 각 계급의 상단 중심부를 선으로 잇는다.

줄기-잎 그림(Stem-Leaf Display) 도수분포표나 히스토그램이 갖고 있는 성질을 그대로 보존하면서 각 계급 안에 들어있는 개개의 측정값을 제공하는 그림 ☞ 줄기-잎 그림 작성 방법 • 줄기와 잎을 구분한다. 변동이 작은 부분을 줄기, 변동이 많은 부분을 잎으로 지정한다. • (2) 줄기 부분을 작은 수부터 순차적으로 나열하고, 잎 부분을 원자료의 관찰 순서대로 나열한다. • (3) 잎 부분의 관찰값을 순서대로 나열하고 전체 자료의 중앙에 놓이는 관찰값이 있는 행의 맨 앞에 괄호( )를 만들고, 괄호 안에 그 행의 잎의 수(도수)를 기입한다. • (4) 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적도수를 위와 아래방향에서 각각 기입하고, 최소단위와 자료의 전체 개수를 기입한다.

머리의 직경이 50㎜인 볼트를 제조하는 회사로부터 100개의 볼트를 임의로 수집하여 측정한 결과 예 줄기-잎 그림 작성 ?

우선 변동이 많은 부분(소수점 이하 자리)과 적은 부분(정수 부분)으로 줄기와 잎을 구분하고, • 줄기 부분을 먼저 크기순에 의하여 아래방향으로 작성하고 행으로 잎의 부분을 관찰 순서에 의하여 작성한다. • 잎의 부분을 순서대로 나열하고 첫 번째 열에 상･하 방향으로 누적도수를 작성한다. • 끝으로 누적도수가 50%에 해당하는 행에 그 행의 도수를 괄호 안에 기입하고, 최소단위와 자료의 수를 기입하면, 간격이 “1”인 줄기-잎 그림이 완성된다. (1), (2) 단계 (3), (4) 단계

☞ 세분화 된 줄기-잎 그림 • 잎 부분의 간격이 “0.5”인 좀 더 세분화된 줄기-잎 그림 • 잎의 자료가 0~4인 경우와 5~9인 경우의 줄기를 각각 “o”와 “*”로 구분

◦ 줄기-잎 그림을 90회전한 그림 계급간격이 0.5이고, 각 계급의 자료값을 보여주는 히스토그램 또는 도수다각형

예제 1에 주어진 자료에 대하여, 간격이 10인 줄기-잎 그림과 간격이 5인 줄기-잎 그림 간격이 10인 줄기-잎 그림 간격이 5인 줄기-잎 그림

산점도(Scatter Diagram) • 독립변수(x)와 응답변수(y)의 관계를 가지는 두 자료를 (x, y)형태로 좌표평면 위에 작성한 그림 • 두 변수 사이의 상관관계를 쉽게 파악할 수 있다. • 산점도에 가장 적합한 직선 y = ax + b를 구하면, 다음 관측값을 쉽게 예측할 수 있다. • 이상점으로 판단되는 자료값을 쉽게 알 수 있다. 예 통계청에서 발표한 2038년부터 2049년까지 우리나라 인구동향 (단위 : 명)

우리나라 인구동향에 대한 산점도 2005년 추계인구의 예측 이상점의 발견

3 위치척도 중심위치의 척도인 표본평균, 절사평균, 표본중앙값과 표본최빈값, 표본사분위수 및 표본백분위수의 성질에 대하여 알아본다. • 중심위치의 척도(measure of centrality) : 표본으로 얻은 자료를 대표해서 나타내는 척도 히스토그램 또는 도수분포의 중심을 나타내는 수치 • 중심위치를 나타내는 척도: 표본평균과 중앙값 그리고 최빈값 등

N 1 m= S xi i = 1 N 1 n 표본의 평균 : x = S xi n i = 1 표본평균(Sample Mean) • 중심의 위치를 나타내는데 가장 보편적으로 사용하는 위치척도 • 확률변수 X의 기대값 E(X)가 확률분포의 중심을 나타내는 것과 동일한 의미 • 모집단 또는 표본에서 관찰된 모든 측정값을 더하여 전체 도수로 나눈 수치 ☞ 모평균(population mean) 모집단의 평균 : ☞ 표본평균(sample mean)

RSS = S (xi – x)2 잔차제곱합 : ☞ 표본평균의 특성 • ⊙ 장점: • 계산하기 쉽다. • 모든 측정값을 반영한 정보를 제공한다. • 각 자료와 평균과의 편차의 제곱을 모두 더한 잔차제곱합(residual sum of squares; RSS) 이 다른 유형의 위치척도에 비하여 작다. 추측통계학에서 모평균을 추정하거나 검정하기 위하여 표본평균을 이용한다. • ⊙ 단점: • 이상점에 큰 영향을 받는다.

1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 x = = 5.5 10 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 100 y = = 14.5 10 두 자료집단에 대하여 자료집단 A : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 자료집단 B : [1, 2, 3, 4, 5, 6, 7, 8, 9, 100] (1) 두 자료집단의 평균을 구하고, 두 집단의 평균을 비교 (2) 자료집단 A의 각 측정값에 2씩 더한 자료들의 평균 (3) 자료집단 A의 각 측정값에 2씩 곱한 자료들의 평균 (1) 자료집단 A의 평균 : 자료집단 B의 평균 : 자료집단 A에 비하여 자료집단 B의 중심의 위치가 매우 크다.

3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 C = = 7.5 10 2 + 4 + 6 + 8 + 10 + 12 + 14 + 16 + 18 + 20 D = = 11 10 6 + 6 + 7 + 3 + 6 + 7 + 7 + 6 + 9 + 3 x = = 6 10 (2) 자료집단 A에 2씩 더한 자료 : C : [3, 4, 5, 6, 7, 8, 9, 10, 11, 12] (3) 자료집단 A에 2씩 곱한 자료 : D : [2, 4, 6, 8, 10, 12, 14, 16, 18, 20] 자료집단 [6, 6, 7, 3, 6, 7, 7, 6, 9, 3]에 대한 표본평균을 구하고, 도수분포표 자료집단의 평균 :

6 + 6 + 7 + 3 + 6 + 7 + 7 + 6 + 9 + 3 x = 10 3•2 + 6•4 + 7•3 + 9•1 = 10 fk f1 f2 n n n 기대값 : E(X) = 3•(0.2) + 6•(0.4) + 7•(0.3) + 9•(0.1) = 6 표본평균 1 2 4 3 10 10 10 10 서로 다른 관측값 x1, x2, …, xk 합 x = x1• + x2• + … + xk• 각 관측값의 상대도수 f1, f2, …, fk n 로부터 표본평균 : = 6 = 3• + 6• + 7• + 9• 측정값 비율 상대도수에 의한 각 측정값의 확률표

x = 0•(0.1) + 1•(0.3) + 2•(0.45) + 3•(0.1) + 4•(0.05) = 1.65 도수분포표에 대한 표본평균

2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 y = = 5.5 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 10 x = = 5.5 10 절사평균(Trimmed Mean; TM) 예 예제 1의 자료집단 B에 대하여, 자료값 “1”, “100”을 제거한 평균 자료집단 A : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 자료집단 B : [1, 2, 3, 4, 5, 6, 7, 8, 9, 100] • 산술평균이 갖는 이상점에 대한 영향을 줄인 산술평균 • a%에 해당하는 큰 쪽과 작은 쪽의 관찰값을 제거한 나머지의 평균 • an = 정수(k)이면, k개의 측정값을 각각 양쪽에서 절사시킴 • an이 정수가 아니면, [an]개 씩 양쪽에서 절사시킴.

62 + 69 + 72 + 34 + 69 + 67 + 70 + 65 + 99 x = = 60 9 62 + 69 + 72 + 69 + 67 + 70 + 65 TM = = 58.14 9 표본평균과 15%-절사평균 자료집단 : [62, 69, 72, 34, 69, 67, 70, 65, 99] • 표본평균 • 15%-절사평균 절사 측정값의 개수 : [an] = [(0.15)•9] = [1.35] =1

x x + n n x +1 ,n이 홀수인 경우 2 2 n+1 2 2 Me = ,n이 짝수인 경우 표본 중앙값(Sample Median; Me) • 표본평균이 갖는 이상점에 대한 영향을 제거할 수 있는 중심위치의 척도 • 자료의 측정값을 크기순서로 나열하여 가장 가운데 순위에 놓이는 값 • 확률변수의 중앙값과 동일한 의미 • ⊙ 장점: • 어느 한 쪽으로 치우친 분포를 갖는 자료에 대하여 평균보다 좋은 중심의 위치를 나타낸다. • ⊙ 단점: • 전체 자료를 크기 순으로 나열하여 중앙에 놓이는 자료를 찾아야 한다는 점에서 자료의 수가 많은 경우에 부적절 • 수리적으로 다루기 매우 힘들다는 이유로 추측통계학에서 별로 사용하지 않는다.

7 + 9 2 Me = = 8 각 자료집단의 표본 중앙값 자료집단 A : [7, 15, 11, 5, 9], 자료집단 B : [7, 15, 110, 5, 9], 자료집단 C : [2, 7, 15, 11, 5, 9] 자료집단 A : 5개의 측정값으로 구성되어 있으므로 중앙값은 크기순으로 나열하여 3번째 위치 재배열 : [5, 7, 9, 11, 15] Me = 9 자료집단 B : 5개의 측정값으로 구성되어 있으므로 중앙값은 크기순으로 나열하여 3번째 위치 재배열 : [5, 7, 9, 15, 110] Me = 9 자료집단 C : 6개의 측정값으로 구성되어 있으므로 중앙값은 3번째와 4번째 위치에 놓이는 측정값의 평균 재배열 : [2, 5, 7, 9, 11, 15]

기 술 통 계 학

기 술 통 계 학

Presentation Transcript