1 / 139

의학자료분석론

의학자료분석론. 교재 : 강의록 Rosner B, Fundamentals of Biostatistics, 7 th ed. Brooks/Cole Cengage Learning, Canada, 2011. 강의 평가 : 출석 20% 숙제 30% 기말고사 50%. 의학연구에서의 통계학의 의의. 환자 진료 시 필요한 정보들 ( 예 : 진단방법 평가 , 정상치 판정 , 환자 모니터 등 ) 을 객관적으로 수집 , 분석하게 한다 .

noelle-cote
Download Presentation

의학자료분석론

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 의학자료분석론 • 교재: 강의록 • Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 2011. • 강의 • 평가: • 출석 20% • 숙제 30% • 기말고사 50%

  2. 의학연구에서의 통계학의 의의 • 환자 진료 시 필요한 정보들 (예: 진단방법 평가, 정상치 판정, 환자 모니터 등)을 객관적으로 수집, 분석하게 한다. • 의학연구 시 연구설계에서부터 자료 분석까지 통계학적 지식이 요구된다. • 의학논문 사독 시 비판적 해석 능력을 갖게 한다.

  3. 강의 목표 • 의학연구자료를 가장 적절하게 분석할 통계적 방법이 무엇인지 안다. • 흔히 사용되는 통계방법의 결과들을 해석할 줄 안다. • 의학논문을 읽을 때 통계적 오류의 가능성을 알아본다. • 기본적인 통계분석을 수행할 줄 안다(by manual or by using the statistical packages). • 또한 어떨 때 통계전문가에게 의뢰해야 하는지 판단할 줄도 안다. • 통계프로그램의 작동법의 기초를익힌다.

  4. 통계의 종류 • 기술통계 (Descriptive Statistics) • 통계적 추론 (Statistical Inference)

  5. 기술통계 (Descriptive Statistics) • 자료의요약 및 정리(Ways of organizing and summarizing a collection of numbers) • 기술통계를 통해 어떤 표본에서 측정된 수치들이 다양성을 가지면서도(variable) 그 가운데 일정성(regularity)을 갖고 있음을 파악하게 된다. • 기술통계에 쓰이는 방법 – 그래프, 표, 수적 요약 지표(평균, 표준편차 등)

  6. 통계적 추론 (Statistical Inference) • 한 표본에서의 관찰을 통해 그 표본이 대표하는 모집단에 관한 결론을 이끌어내는 방법이다. • 즉, 모집단 전체를 관찰할 시간과 재원의 마련이 불가능하기 때문에 사용되는 기술이다. • 통계적 추론이 어디에 근거해서 이루어질 수 있는지 이해하기 위해 우선 기본적인 확률론 및 확률분포에 관해 알아야 한다.

  7. 모집단과 표본 • 모집단 (population) • 정보를 얻고자 하는 대상집단 전체. • 모수(parameter) 를 얻는다. • 표본 (sample) • 모집단을 대표할 수 있는 일부집단 • 무작위추출(random sampling) 이 필요 • 통계량(statistic) 을 얻는다.

  8. 모집단(population) 과 표본(sample) 표본량, 검정통계량 모수, 참값 s2 σ2

  9. 모집단과 표본의 기호

  10. 자료의 척도 명칭척도 (nominal data)는 가장 간단한 형태의 자료이며 값들은 순서가 없는 범주 중 어디에 속하는지를 나타낸다. 예) 성별 – 남, 여 혈액형 – O, A, B, AB 국적 – 한국, 중국, 일본… 질병분류 – C50.9(유방암), C16.0(위암) 명칭척도가 2개의 값 만을 가질 때 양분성 자료 (dichotomous or binary data)라고 부른다. 수치로 입력 가능 – 사칙연산은 불가

  11. 순위척도 (ordinal data)는 범주형 변수이나 상대적 크기에 따른 순위를 매길 수 있다. 예) 신체손상정도 – minor, moderate, severe 순위척도도 숫자로 표현되나 그 크기는 수학적 의미가 없다. 명칭척도와 순위척도를 합쳐 범주형자료 (categorical data)라 부른다.

  12. 이산 변수 (discrete data or interval data)에서는 순서와 크기가 모두 중요하다. 변수의 값은 범주만을 나타내지 않고 실제로 측정될 수 있는 크기의 값을 나타낸다. 그러나 이 척도는 정수 값이나 빈도 값 (count) 같은 특정한 값만을 갖게 된다. 예) 출산 수 서울지역 8월 1달간 교통사고 건수 연간 기형아 출산 수 이산 척도에서는 덧셈, 뺄셈, 곱셈이 가능하다.

  13. 연속 변수 (continuous data)는 값의 순서와 크기가 모두 중요하면서 가질 수 있는 값의 종류가 무한한 변수를 말한다. 임의의 두 값 사이에는 언제나 다른 값이 존재할 수 있다. – 측정도구의 정확도가 한계 예) 체중, 키 생존기간 물의 오염물질 농도

  14. 연속 변수로 측정해도 이보다 적은 양의 정보만을 필요로 할 경우가 있다. • 이런 경우는 연속 변수로 측정하고도 순위 척도나 양분성 변수로 변환시킬 수가 있다. • 이렇게 하면 분석은 간단해 지나 갖고 있는 정보를 모두 활용하지 못하는 제한점이 있다.

  15. 연구 자료 수집 시 어느 정도의 정확도를 갖는 변수로 측정하느냐는 연구 가설에 전적으로 의지한다. • 가능한 한 정확도가 높은 방법으로 정보량이 많은 척도로 측정하는 것이 좋다. 필요 시에는 언제든지 더 간단한 형태의 변수로 변환이 가능하기 때문이다.

  16. 2. 기술 통계

  17. 수적 요약 지표 • 자료 값들의 분포를 한마디로 나타내 주는 수치들을 말한다. • 중심경향을 나타내는 측도 (Measures of location) 들은 표본자료가 어디에 가장 몰려있는지를 표시한다. – 평균 (mean) – 중앙값 (median) – 최빈값 (mode) • 자료가 퍼져 있는 정도를 나타내는 측도들도 있다. – 범위 (range) – 사분위수간 범위 (interquartile range) – 분산 (variance) 또는 표준편차 (standard deviation)

  18. 평균 (Arithmetic Mean) • 표본자료의 중심을 나타내는 척도 중 하나이다. • 각 측정치를 x1, x2, x3, …. x10으로 표현하자. • 평균 (mean) 은 다음과 같이 구한다. • 평균값은 극한값에 의해 크게 영향을 받을 수 있다.

  19. 중앙값 (median) • 중앙값은 자료를 최소 수에서부터 최대 수까지 나열했을 때 50번째 백분위수 (50th percentile) 이다.(central point) • 10명의 응급실 환자들에서 심박동수를 측정하였다. 40, 120, 120, 125, 136, 150, 150, 150, 150, 167 • 우선 자료를 작은 크기에서부터 큰 크기로 순서대로 정렬한다. • 표본 수(n) 이 홀수이면, 중앙값은 [(n+1)/2] 번째 큰 수이다. 표본 수가 짝수이면 중앙값은 (n/2) 번째 수와 [(n/2)+1]번째 수의 평균이다.

  20. 심박수 자료에서 표본수는 10으로 짝수이다. 따라서 중앙값은 5번째 수와 6번째 수의 평균이 된다. • 중앙값은 평균 보다는 극한값에 의해 덜 영향을 받는다. 이런 것을 robust 하다고 표현한다. • 심박수 40을 제외하고 중앙값을 계산해 보자. • 표본수가 9로 줄었으므로 중앙값은 (9+1)/2=5 번째 수이다. 즉 150회/분 이다.

  21. 왜도, 비대칭도 (skewness) Mode Median Mean 평균이 작은 값들에 의해 영향을 받는다. 예)상대습도 평균이 큰 값들에 의해 영향을 받는다. 예) 20대 여성에서 OC 사용기간

  22. 평균과 중앙값과의 관계 • 평균과 중앙값의 크기를 비교하여 분포의 대칭성 여부를 가늠하기도 한다. • 대칭적 분포: 평균=중앙값 • Positively skewed: 평균>중앙값 • Negatively skewed: 평균<중앙값 • Skewed 분포에서는 평균값보다 중앙값이 자료를 더 잘 대표해 준다.

  23. 최빈값(mode) • 최빈값 (mode)는 가장 많이 관찰된 값이다. • 심박수 자료에서 최빈값은 4번이나 관찰된 150회/분 이다. • 연속변수로 측정된 자료는 최빈값을 가지는 경우가 거의 없다. 또는 1개 이상의 최빈값을 가지는 경우가 많다. • 최빈값은 범주형 자료에 적절한 측도이다.

  24. 척도 Kurtosis • 중심의 측도인 한 값이 자료의 모든 특성을 다 대변해 주지는 못한다. • 다음의 상이한 세분포는 동일한 평균과 중앙값, 그리고 최빈값을 가진다. • 따라서 자료의 변이도 혹은 퍼져있는 정도를 같이 얘기해 줘야 자료를 제대로 표현할 수 있게 된다.

  25. 자료의 변이도 • 자료의 퍼져있는 정도를 표시한다. • 범위 • 사분위수간 범위 • 분산 및 표준편차 • 범위(range)는 최대값에서 최소값을 뺀 것이다. • 범위는 극한값에 의해 크게 변화한다.

  26. 사분위수간 범위 • 사분위수간 범위 (interquartilerange:IQR) 는 75th percentile 과 25th percentile의 차이이다. • 25th percentile 을 계산하려면, np/100=(10)(25)/100 = 2.5 (=k) 가 정수가 아니기 때문에 k(=2)+1 =3번째 큰 수이다. (=120) • 75th percentile 은 큰 수에서부터 3번째 작은 수이므로 150이다. • 따라서 사분위수간 범위는 150-120=30회/분 이다. • 사분위수간 범위(IQR)은 중간 50% 의 자료를 포함한다.

  27. 분산 (variance), 표본분산 (sample variance) • 표본 분산은 평균을 중심으로 자료가 퍼져 있는 정도를 계량화 한 것이다. • 또 다른 공식은, • 심박수 자료에서 분산은,

  28. 표준편차 (standard deviation) • 심박수 자료의 표준편차는, • 표준편차는 평균처럼 측정치들과 동일한 단위를 갖는 이점이 있다. • 중앙값은 범위나 사분위수간 범위와 함께 잘 쓰인다. • 평균은 표준편차와 같이 잘 쓰인다. • 이산변수나 연속변수의 경우 수적 요약 지표보다 그래프나 표가 자료의 요약에 더 효과적이다.

  29. 변이계수 • 변이계수 (coefficient of variation;CV) 는 평균과 표준편차 간의 관계를 표현해 준다. • 이는 평균에 대한 상대적인 변이를 나타낸다. • 임상병리검사실 등에서 정도관리를 위해 2군데 이상에서 잰 동일한 검사의 측정값들을 비교할 때 사용된다.(정밀도) • 측정 단위는 상쇄되어 없어진다.

  30. 평균값의 성질 • 측정치 x1, x2, x3, …., xn이 있다고 하자. (1) x의 각 값에 상수 c1를 더한 측정치 y1=x1+c1, y2=x2+c1, y3=x3+c1, …. yn=xn+c1이 있을 때, 이들의 평균은?

  31. (2) x의 각 값에 상수 c2를 곱한 측정치yi • yi=c2*xi • yi값들의 평균은,

  32. 이제yi=c2xi + c1인 경우에는 평균이

  33. 분산의 성질 • xi에 상수 c1을 더한yi의 경우, • 분산은 변하지 않는다. • xi에 상수 c2를 곱한yi의 경우, • 분산은이다.

  34. 줄기 잎 전시 • 줄기 잎 전시 (stem and leaf display)는 히스토그램 대신 쉽게 그릴 수 있다. • 각 구간 내에서 개개 측정값의 위치를 파악할 수 있다. • 방법 • 각 관측치를 줄기(stem) 부분과 잎(leaf; 맨 우측자리 수) 부분으로 구별한다. • 가장 작은 줄기 수를 맨 위에 적는다. • 두 번째 줄기 수 (first stem +1)..... • 가장 큰 줄기 수를 쓸 때까지 지속 • 줄기 수 오른쪽으로 수직선을 긋는다. • 각 관측치들을 해당 줄기 오른쪽에 잎에 해당되는 숫자로 적는다.

  35. 예) 124, 130, 130, 148, 149, 155, 163, 182 12 4 13 0 0 14 8 9 15 5 16 3 17 18 2 줄기 잎 전시 • 잎의 축적이 데이터의 전체적인 분포를 보여준다. 실측치도 보여주면서 범주화된 분포도 보여준다. • 중앙값과 사분위수를 계산할 수 있다

  36. 상자수염도 (Box and wisker Plot) • 이산변수나 연속 변수의 분포를 1개의 수직 축에 간편하게 나타낼 수 있는 방법이다. 자료를 전 부 다 나타내 주지는 못하나 비대칭성 (skewness) 을 알아내는데 편리하다. • 우선 자료의 백분위 수 (percentile) 를 알아야 한다. • P 번째 백분위수는 p% 관측치 보다 크거나 같은 값 혹은 (1-p)% 관측치 보다 작거나 같은 값을 말한다.

  37. 총n 개의 관찰치가 있다고 하자. 값들을 작은 것에서 큰 것으로 순차적으로 나열하면 p 번째 백분위수는, 1) np/100 이 정수가 아닌 경우 (k+1) 번째 큰 관측치: k는 np/100 보다 작은 수 중 가장 큰 정수 2) np/100 이 정수인 경우 (np/100 ) 번째 수와 (np/100 +1) 번째 수의 평균

  38. 사분위수(percentile) : 25 백분위수, 75 백분위수 • Box의 가운데 줄: 50 백분위수 (=중앙값 median) • 사분위수, 중앙값: 자료의 대칭성 판단

  39. 외딴값 • 외딴값 (outlying value) X는 다음과 같이 정의할 수 있다. 1) X > 75th percentile + 1.5 * (75th –25th) Or 2) X < 25th percentile – 1.5 * (75th – 25th) • (75th – 25th) 는 바로 box 의 높이 이다. • 외딴 값이 아니면서 가장 큰 혹은 가장 작은 값을 인접값 (adjacent value)라고 한다. • Box 높이의 3배 이상 떨어진 값을 극외딴값 (extreme outlying values)이라 부른다.

  40. Box plot은 두 개 이상의 집단에서의 측정값의 분포를 쉽게 비교할 수 있는 장점이 있다.

  41. 3. 확률론Probability

  42. 확률 (probability) • 자료를 “기술”한 후에는 결론을 내리고 싶어한다. • 1000명 중 4명이 질병에 걸린 경우와 1000명 중 5명이 질병에 걸린 경우가 있다 하자. 이 두 경우는 같다고 보아야 하는가 아니면 다르다고 보아야 하는가? • 판단의 근거: 각 경우가 나타날 확률 • 확률은 관찰한 표본으로부터 얻어진 정보를 가지고 모집단의 특성에 관해 결론을 내리게 하는 근거이다. • 가설검정이나 p-value를 해석하기 위해 확률에 관해 알고 있어야 한다.

  43. 사건 (event) • 사건(event) 은 발생할 가능성이 있는 한 개의 결과(outcome) 혹은 결과들의 집합체를 말한다. • 50세 된 남성이 일생동안 심장질환에 걸리는 사건 • 한 여성이 다음 해에 임신하는 사건 • 원자력 발전소에서 5년 내에 방사능 유출이 있는 사건 • 사건은 일어나거나 혹은 일어나지 않은 상태둘 중 하나이다. • 사건은 보통 대문자 알파벳으로 나타낸다. (A, B, C 등)

  44. 확률의 정의 • 사건 A 가 일어날 확률이란, 같은 조건 하에서 무한히 많은 시행을 거쳤을 때 관찰되는 A 의 상대빈도로 생각할 수 있다. - “frequentist definition” • n 을 시행 횟수라 하고 m 을 이중 A 가 발생한 횟수라 하자. n 이 무한대에 접근 할수록 m/n 은 P(A) 에 근접한다. • 시행을 무한히 반복하기는 불가능하므로 확률은 (매우 큰) 유한의 수를 가진 자료에서 얻어진 경험적 확률로부터 추정된다.-“empirical probabilities” • 이론적 확률로modeling 을 통해특정 사건의 확률을 추정하기도 한다. • “Goodness of fit” 이란 경험적 확률이 이론적 확률과 얼마나 잘 들어맞느냐의 정도를 추정하는 것이다.

  45. 확률의 예 • 태어나는 신생아가 남자아이일 확률을 알고자 한다. • 미국의 경우 1992년 자료에 의하면 4,065,014명이 태어났고, 이중 2,081,287명이 남자였다. • 미국에서 태어나는 신생아가 남자아이일 확률은, • Probability of an event A : P(A) • 0  P(A)  1

  46. 4. 이산확률분포Discrete Probability Distribution

  47. 확률변수 (random variables) 와 확률분포 (probability distribution) • 어떠한 물량(物量)나 특성이 복수 개의 값을 가질 수 있으면서 그중 어떤 값을 가지는 지는 우연에 의해 결정될 경우 이를 확률변수라 한다. (사실상 측정할 수 있는 모든 변수) • 확률변수는 이산변수이거나 연속변수이다. • 이산확률변수는 유한 개의 값을 가질 수 있다. • 연속확률변수는 특정 구간 내에 어떠한 값도 가능하다.

  48. 이산확률변수 (Discrete Random Variables ) • n : 시행 횟수 • 매 회마다 성공(event, 1) / 실패(non event, 0) • xi: 성공 횟수 (X: 성공 횟수를 나타내는 이산확률변수) • Pr(X=r) : 각 sample에서 N회 시행했을 때 성공 횟수가 r회일 확률

  49. Example 4.4 (p.82) • 100명의 의사가 각각 4명의 새로운 고혈압 환자들에게 신약을 투여하였다. 제약회사가 기대하는 확률은, • 위 표에서 확률분포는 무한히 많은 표본에서 나온 결과로 본다. • 또는 기존의 알려진 분포에서 계산해오기도 한다.(이항분포)

  50. 확률질량함수 • 치료약에 반응한 환자의 수는 0, 1, 2, 3, 4 의 5개 값 (outcome)을 갖는다. • 각 outcome은 고유의 발생 확률을 가진다. • 각 outcome 에 확률을 할당하는 규칙이 확률질량함수 (probability mass function) 이다. (위의 경우는 표) • 각 outcome 들은 상호 배반적이어야 한다. • 전체를 이루는 사건들 (exhaustive events)

More Related