1.4k likes | 1.79k Views
의학자료분석론. 교재 : 강의록 Rosner B, Fundamentals of Biostatistics, 7 th ed. Brooks/Cole Cengage Learning, Canada, 2011. 강의 평가 : 출석 20% 숙제 30% 기말고사 50%. 의학연구에서의 통계학의 의의. 환자 진료 시 필요한 정보들 ( 예 : 진단방법 평가 , 정상치 판정 , 환자 모니터 등 ) 을 객관적으로 수집 , 분석하게 한다 .
E N D
의학자료분석론 • 교재: 강의록 • Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 2011. • 강의 • 평가: • 출석 20% • 숙제 30% • 기말고사 50%
의학연구에서의 통계학의 의의 • 환자 진료 시 필요한 정보들 (예: 진단방법 평가, 정상치 판정, 환자 모니터 등)을 객관적으로 수집, 분석하게 한다. • 의학연구 시 연구설계에서부터 자료 분석까지 통계학적 지식이 요구된다. • 의학논문 사독 시 비판적 해석 능력을 갖게 한다.
강의 목표 • 의학연구자료를 가장 적절하게 분석할 통계적 방법이 무엇인지 안다. • 흔히 사용되는 통계방법의 결과들을 해석할 줄 안다. • 의학논문을 읽을 때 통계적 오류의 가능성을 알아본다. • 기본적인 통계분석을 수행할 줄 안다(by manual or by using the statistical packages). • 또한 어떨 때 통계전문가에게 의뢰해야 하는지 판단할 줄도 안다. • 통계프로그램의 작동법의 기초를익힌다.
통계의 종류 • 기술통계 (Descriptive Statistics) • 통계적 추론 (Statistical Inference)
기술통계 (Descriptive Statistics) • 자료의요약 및 정리(Ways of organizing and summarizing a collection of numbers) • 기술통계를 통해 어떤 표본에서 측정된 수치들이 다양성을 가지면서도(variable) 그 가운데 일정성(regularity)을 갖고 있음을 파악하게 된다. • 기술통계에 쓰이는 방법 – 그래프, 표, 수적 요약 지표(평균, 표준편차 등)
통계적 추론 (Statistical Inference) • 한 표본에서의 관찰을 통해 그 표본이 대표하는 모집단에 관한 결론을 이끌어내는 방법이다. • 즉, 모집단 전체를 관찰할 시간과 재원의 마련이 불가능하기 때문에 사용되는 기술이다. • 통계적 추론이 어디에 근거해서 이루어질 수 있는지 이해하기 위해 우선 기본적인 확률론 및 확률분포에 관해 알아야 한다.
모집단과 표본 • 모집단 (population) • 정보를 얻고자 하는 대상집단 전체. • 모수(parameter) 를 얻는다. • 표본 (sample) • 모집단을 대표할 수 있는 일부집단 • 무작위추출(random sampling) 이 필요 • 통계량(statistic) 을 얻는다.
모집단(population) 과 표본(sample) 표본량, 검정통계량 모수, 참값 s2 σ2
자료의 척도 명칭척도 (nominal data)는 가장 간단한 형태의 자료이며 값들은 순서가 없는 범주 중 어디에 속하는지를 나타낸다. 예) 성별 – 남, 여 혈액형 – O, A, B, AB 국적 – 한국, 중국, 일본… 질병분류 – C50.9(유방암), C16.0(위암) 명칭척도가 2개의 값 만을 가질 때 양분성 자료 (dichotomous or binary data)라고 부른다. 수치로 입력 가능 – 사칙연산은 불가
순위척도 (ordinal data)는 범주형 변수이나 상대적 크기에 따른 순위를 매길 수 있다. 예) 신체손상정도 – minor, moderate, severe 순위척도도 숫자로 표현되나 그 크기는 수학적 의미가 없다. 명칭척도와 순위척도를 합쳐 범주형자료 (categorical data)라 부른다.
이산 변수 (discrete data or interval data)에서는 순서와 크기가 모두 중요하다. 변수의 값은 범주만을 나타내지 않고 실제로 측정될 수 있는 크기의 값을 나타낸다. 그러나 이 척도는 정수 값이나 빈도 값 (count) 같은 특정한 값만을 갖게 된다. 예) 출산 수 서울지역 8월 1달간 교통사고 건수 연간 기형아 출산 수 이산 척도에서는 덧셈, 뺄셈, 곱셈이 가능하다.
연속 변수 (continuous data)는 값의 순서와 크기가 모두 중요하면서 가질 수 있는 값의 종류가 무한한 변수를 말한다. 임의의 두 값 사이에는 언제나 다른 값이 존재할 수 있다. – 측정도구의 정확도가 한계 예) 체중, 키 생존기간 물의 오염물질 농도
연속 변수로 측정해도 이보다 적은 양의 정보만을 필요로 할 경우가 있다. • 이런 경우는 연속 변수로 측정하고도 순위 척도나 양분성 변수로 변환시킬 수가 있다. • 이렇게 하면 분석은 간단해 지나 갖고 있는 정보를 모두 활용하지 못하는 제한점이 있다.
연구 자료 수집 시 어느 정도의 정확도를 갖는 변수로 측정하느냐는 연구 가설에 전적으로 의지한다. • 가능한 한 정확도가 높은 방법으로 정보량이 많은 척도로 측정하는 것이 좋다. 필요 시에는 언제든지 더 간단한 형태의 변수로 변환이 가능하기 때문이다.
수적 요약 지표 • 자료 값들의 분포를 한마디로 나타내 주는 수치들을 말한다. • 중심경향을 나타내는 측도 (Measures of location) 들은 표본자료가 어디에 가장 몰려있는지를 표시한다. – 평균 (mean) – 중앙값 (median) – 최빈값 (mode) • 자료가 퍼져 있는 정도를 나타내는 측도들도 있다. – 범위 (range) – 사분위수간 범위 (interquartile range) – 분산 (variance) 또는 표준편차 (standard deviation)
평균 (Arithmetic Mean) • 표본자료의 중심을 나타내는 척도 중 하나이다. • 각 측정치를 x1, x2, x3, …. x10으로 표현하자. • 평균 (mean) 은 다음과 같이 구한다. • 평균값은 극한값에 의해 크게 영향을 받을 수 있다.
중앙값 (median) • 중앙값은 자료를 최소 수에서부터 최대 수까지 나열했을 때 50번째 백분위수 (50th percentile) 이다.(central point) • 10명의 응급실 환자들에서 심박동수를 측정하였다. 40, 120, 120, 125, 136, 150, 150, 150, 150, 167 • 우선 자료를 작은 크기에서부터 큰 크기로 순서대로 정렬한다. • 표본 수(n) 이 홀수이면, 중앙값은 [(n+1)/2] 번째 큰 수이다. 표본 수가 짝수이면 중앙값은 (n/2) 번째 수와 [(n/2)+1]번째 수의 평균이다.
심박수 자료에서 표본수는 10으로 짝수이다. 따라서 중앙값은 5번째 수와 6번째 수의 평균이 된다. • 중앙값은 평균 보다는 극한값에 의해 덜 영향을 받는다. 이런 것을 robust 하다고 표현한다. • 심박수 40을 제외하고 중앙값을 계산해 보자. • 표본수가 9로 줄었으므로 중앙값은 (9+1)/2=5 번째 수이다. 즉 150회/분 이다.
왜도, 비대칭도 (skewness) Mode Median Mean 평균이 작은 값들에 의해 영향을 받는다. 예)상대습도 평균이 큰 값들에 의해 영향을 받는다. 예) 20대 여성에서 OC 사용기간
평균과 중앙값과의 관계 • 평균과 중앙값의 크기를 비교하여 분포의 대칭성 여부를 가늠하기도 한다. • 대칭적 분포: 평균=중앙값 • Positively skewed: 평균>중앙값 • Negatively skewed: 평균<중앙값 • Skewed 분포에서는 평균값보다 중앙값이 자료를 더 잘 대표해 준다.
최빈값(mode) • 최빈값 (mode)는 가장 많이 관찰된 값이다. • 심박수 자료에서 최빈값은 4번이나 관찰된 150회/분 이다. • 연속변수로 측정된 자료는 최빈값을 가지는 경우가 거의 없다. 또는 1개 이상의 최빈값을 가지는 경우가 많다. • 최빈값은 범주형 자료에 적절한 측도이다.
척도 Kurtosis • 중심의 측도인 한 값이 자료의 모든 특성을 다 대변해 주지는 못한다. • 다음의 상이한 세분포는 동일한 평균과 중앙값, 그리고 최빈값을 가진다. • 따라서 자료의 변이도 혹은 퍼져있는 정도를 같이 얘기해 줘야 자료를 제대로 표현할 수 있게 된다.
자료의 변이도 • 자료의 퍼져있는 정도를 표시한다. • 범위 • 사분위수간 범위 • 분산 및 표준편차 • 범위(range)는 최대값에서 최소값을 뺀 것이다. • 범위는 극한값에 의해 크게 변화한다.
사분위수간 범위 • 사분위수간 범위 (interquartilerange:IQR) 는 75th percentile 과 25th percentile의 차이이다. • 25th percentile 을 계산하려면, np/100=(10)(25)/100 = 2.5 (=k) 가 정수가 아니기 때문에 k(=2)+1 =3번째 큰 수이다. (=120) • 75th percentile 은 큰 수에서부터 3번째 작은 수이므로 150이다. • 따라서 사분위수간 범위는 150-120=30회/분 이다. • 사분위수간 범위(IQR)은 중간 50% 의 자료를 포함한다.
분산 (variance), 표본분산 (sample variance) • 표본 분산은 평균을 중심으로 자료가 퍼져 있는 정도를 계량화 한 것이다. • 또 다른 공식은, • 심박수 자료에서 분산은,
표준편차 (standard deviation) • 심박수 자료의 표준편차는, • 표준편차는 평균처럼 측정치들과 동일한 단위를 갖는 이점이 있다. • 중앙값은 범위나 사분위수간 범위와 함께 잘 쓰인다. • 평균은 표준편차와 같이 잘 쓰인다. • 이산변수나 연속변수의 경우 수적 요약 지표보다 그래프나 표가 자료의 요약에 더 효과적이다.
변이계수 • 변이계수 (coefficient of variation;CV) 는 평균과 표준편차 간의 관계를 표현해 준다. • 이는 평균에 대한 상대적인 변이를 나타낸다. • 임상병리검사실 등에서 정도관리를 위해 2군데 이상에서 잰 동일한 검사의 측정값들을 비교할 때 사용된다.(정밀도) • 측정 단위는 상쇄되어 없어진다.
평균값의 성질 • 측정치 x1, x2, x3, …., xn이 있다고 하자. (1) x의 각 값에 상수 c1를 더한 측정치 y1=x1+c1, y2=x2+c1, y3=x3+c1, …. yn=xn+c1이 있을 때, 이들의 평균은?
(2) x의 각 값에 상수 c2를 곱한 측정치yi • yi=c2*xi • yi값들의 평균은,
분산의 성질 • xi에 상수 c1을 더한yi의 경우, • 분산은 변하지 않는다. • xi에 상수 c2를 곱한yi의 경우, • 분산은이다.
줄기 잎 전시 • 줄기 잎 전시 (stem and leaf display)는 히스토그램 대신 쉽게 그릴 수 있다. • 각 구간 내에서 개개 측정값의 위치를 파악할 수 있다. • 방법 • 각 관측치를 줄기(stem) 부분과 잎(leaf; 맨 우측자리 수) 부분으로 구별한다. • 가장 작은 줄기 수를 맨 위에 적는다. • 두 번째 줄기 수 (first stem +1)..... • 가장 큰 줄기 수를 쓸 때까지 지속 • 줄기 수 오른쪽으로 수직선을 긋는다. • 각 관측치들을 해당 줄기 오른쪽에 잎에 해당되는 숫자로 적는다.
예) 124, 130, 130, 148, 149, 155, 163, 182 12 4 13 0 0 14 8 9 15 5 16 3 17 18 2 줄기 잎 전시 • 잎의 축적이 데이터의 전체적인 분포를 보여준다. 실측치도 보여주면서 범주화된 분포도 보여준다. • 중앙값과 사분위수를 계산할 수 있다
상자수염도 (Box and wisker Plot) • 이산변수나 연속 변수의 분포를 1개의 수직 축에 간편하게 나타낼 수 있는 방법이다. 자료를 전 부 다 나타내 주지는 못하나 비대칭성 (skewness) 을 알아내는데 편리하다. • 우선 자료의 백분위 수 (percentile) 를 알아야 한다. • P 번째 백분위수는 p% 관측치 보다 크거나 같은 값 혹은 (1-p)% 관측치 보다 작거나 같은 값을 말한다.
총n 개의 관찰치가 있다고 하자. 값들을 작은 것에서 큰 것으로 순차적으로 나열하면 p 번째 백분위수는, 1) np/100 이 정수가 아닌 경우 (k+1) 번째 큰 관측치: k는 np/100 보다 작은 수 중 가장 큰 정수 2) np/100 이 정수인 경우 (np/100 ) 번째 수와 (np/100 +1) 번째 수의 평균
사분위수(percentile) : 25 백분위수, 75 백분위수 • Box의 가운데 줄: 50 백분위수 (=중앙값 median) • 사분위수, 중앙값: 자료의 대칭성 판단
외딴값 • 외딴값 (outlying value) X는 다음과 같이 정의할 수 있다. 1) X > 75th percentile + 1.5 * (75th –25th) Or 2) X < 25th percentile – 1.5 * (75th – 25th) • (75th – 25th) 는 바로 box 의 높이 이다. • 외딴 값이 아니면서 가장 큰 혹은 가장 작은 값을 인접값 (adjacent value)라고 한다. • Box 높이의 3배 이상 떨어진 값을 극외딴값 (extreme outlying values)이라 부른다.
Box plot은 두 개 이상의 집단에서의 측정값의 분포를 쉽게 비교할 수 있는 장점이 있다.
확률 (probability) • 자료를 “기술”한 후에는 결론을 내리고 싶어한다. • 1000명 중 4명이 질병에 걸린 경우와 1000명 중 5명이 질병에 걸린 경우가 있다 하자. 이 두 경우는 같다고 보아야 하는가 아니면 다르다고 보아야 하는가? • 판단의 근거: 각 경우가 나타날 확률 • 확률은 관찰한 표본으로부터 얻어진 정보를 가지고 모집단의 특성에 관해 결론을 내리게 하는 근거이다. • 가설검정이나 p-value를 해석하기 위해 확률에 관해 알고 있어야 한다.
사건 (event) • 사건(event) 은 발생할 가능성이 있는 한 개의 결과(outcome) 혹은 결과들의 집합체를 말한다. • 50세 된 남성이 일생동안 심장질환에 걸리는 사건 • 한 여성이 다음 해에 임신하는 사건 • 원자력 발전소에서 5년 내에 방사능 유출이 있는 사건 • 사건은 일어나거나 혹은 일어나지 않은 상태둘 중 하나이다. • 사건은 보통 대문자 알파벳으로 나타낸다. (A, B, C 등)
확률의 정의 • 사건 A 가 일어날 확률이란, 같은 조건 하에서 무한히 많은 시행을 거쳤을 때 관찰되는 A 의 상대빈도로 생각할 수 있다. - “frequentist definition” • n 을 시행 횟수라 하고 m 을 이중 A 가 발생한 횟수라 하자. n 이 무한대에 접근 할수록 m/n 은 P(A) 에 근접한다. • 시행을 무한히 반복하기는 불가능하므로 확률은 (매우 큰) 유한의 수를 가진 자료에서 얻어진 경험적 확률로부터 추정된다.-“empirical probabilities” • 이론적 확률로modeling 을 통해특정 사건의 확률을 추정하기도 한다. • “Goodness of fit” 이란 경험적 확률이 이론적 확률과 얼마나 잘 들어맞느냐의 정도를 추정하는 것이다.
확률의 예 • 태어나는 신생아가 남자아이일 확률을 알고자 한다. • 미국의 경우 1992년 자료에 의하면 4,065,014명이 태어났고, 이중 2,081,287명이 남자였다. • 미국에서 태어나는 신생아가 남자아이일 확률은, • Probability of an event A : P(A) • 0 P(A) 1
확률변수 (random variables) 와 확률분포 (probability distribution) • 어떠한 물량(物量)나 특성이 복수 개의 값을 가질 수 있으면서 그중 어떤 값을 가지는 지는 우연에 의해 결정될 경우 이를 확률변수라 한다. (사실상 측정할 수 있는 모든 변수) • 확률변수는 이산변수이거나 연속변수이다. • 이산확률변수는 유한 개의 값을 가질 수 있다. • 연속확률변수는 특정 구간 내에 어떠한 값도 가능하다.
이산확률변수 (Discrete Random Variables ) • n : 시행 횟수 • 매 회마다 성공(event, 1) / 실패(non event, 0) • xi: 성공 횟수 (X: 성공 횟수를 나타내는 이산확률변수) • Pr(X=r) : 각 sample에서 N회 시행했을 때 성공 횟수가 r회일 확률
Example 4.4 (p.82) • 100명의 의사가 각각 4명의 새로운 고혈압 환자들에게 신약을 투여하였다. 제약회사가 기대하는 확률은, • 위 표에서 확률분포는 무한히 많은 표본에서 나온 결과로 본다. • 또는 기존의 알려진 분포에서 계산해오기도 한다.(이항분포)
확률질량함수 • 치료약에 반응한 환자의 수는 0, 1, 2, 3, 4 의 5개 값 (outcome)을 갖는다. • 각 outcome은 고유의 발생 확률을 가진다. • 각 outcome 에 확률을 할당하는 규칙이 확률질량함수 (probability mass function) 이다. (위의 경우는 표) • 각 outcome 들은 상호 배반적이어야 한다. • 전체를 이루는 사건들 (exhaustive events)