1 / 48

2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 )

연구를 위한 통계학적 자료 분석을. 어떻게 접근할까. 2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 ). 참 값 = 관측값 + “ 오차 ”. Random error. Systematic error. +. Bias. Reliability. Validity. 有意수준 下에서. 자료수집. 연구설계. 연구설계. 연구설계. 연구설계. 연구설계. 연구결과 해석 및 고찰. 자료분석.

Download Presentation

2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 연구를 위한 통계학적 자료 분석을 어떻게 접근할까 2005년 4월 9일 강 대 룡 (연세대학교 의과대학)

  2. 참 값 = 관측값 + “오차” Random error Systematic error + Bias Reliability Validity

  3. 有意수준 下에서 자료수집 연구설계 연구설계 연구설계 연구설계 연구설계 연구결과 해석 및 고찰 자료분석 記述통계 :조사된 모든 변수에 대해 “기초 기술통계량”을 구하면서, “Data cleaning”  N, Missing value, Outlier 확인, 범주의 Regrouping 고려, … 통계적 檢定 (Testing) : 硏究가설 歸無가설 推論통계 (일:일, 일:다, sub-group) 통계적 해석 : “P-value”로 의사결정 유의성 有無 (차이, 연관성, 선형적인 상관성, 혼란변수 “통제”하에서 영향력) “보건학적”, “의학적” 해석

  4. Categories of statistical procedures used to assess the statistical content in the articles * 비모수적 방법 Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine. N. Engl. J. Med. 1983 ; 309, 709-13.

  5. 무엇이 보건학 연구를 어렵게 만드나 • 보건학의 주 연구대상은 인간이다 ! • 윤리적 문제 • 연구설계상의 한계 • 연구 설계상 한계로 인한 문제들

  6. 무엇이 보건학 연구를 어렵게 만드나 • 연구자의 성급함이 연구결과를 왜곡시킬 수 있다 ! • 연구자의 성급한 마음 혹은 부정한 의도 • “농부와 노인”(전우택, 사회의학연구방법론) • 고찰없는 연구 결과

  7. 무엇이 보건학 연구를 어렵게 만드나 • 연구자가 수집한 최초의 자료는 여러가지 잡음이 뒤섞여 있다! • 이상점 • 결측치 • 잡음이 없는 자료는 없다!

  8. 무엇이 보건학 연구를 어렵게 만드나 • 자료분석에서 부적합한 통계분석을 사용하였을 때 • 사용한 자료가 통계방법의 가정에 위배되는 것이라면? • 이런 연구결과가 사람의 생명과 주어진 보건문제에 직접적으로 관여하는 것이라면?

  9. 자! 이제부터는 분명한 ‘연구주제’와 ‘연구설계’는 앞서 설명하였기 때문에 지금부터는 수집한 자료를 어디서부터 어떻게 접근하면서 분석할지 생각해보자. 어떻게 접근할까?

  10. 수집한 자료를 어떻게 • 간결하게 표현할까?

  11. 수집한 자료를 어떻게 간결하게 표현할까 예제자료 1 • 한국인 남자에서 지방산섭취가 Ischemic Heart Disease (IHD)와 • 관련성이 있는가를 알아보고자 함 • 환자-대조군 연구를 통해 자료를 수집 (Suh et al, 2001) • 환자군 : 세브란스병원에서 1995년부터 1996년 기간동안 처음으로 • 발생한 acute myocardial infarction 또는 • angina pectoris로 진단된 환자 • 대조군 : 동일 시기 세브란스 정형외과/안과 내원한 사람 • 식이섭취 조사 : Food Frequency Questionnaire(FFQ)를 이용 • 기타 일반적인 특성 및 건강관련 행위 내용조사

  12. 수집한 자료를 어떻게 간결하게 표현할까 • [통계 1-1] • 논문에서 언급할 변수들의 분포를 최대한 분석할 필요가 있다 • 측정한 변수가 “연속형” 변수면 대표값(산술평균, 중위수 등)과 • 산포도(표준편차, 사분위수 범위 등)로, • 측정한 변수가 “범주형” 변수면 각 범주의 빈도와 백분율을 보여주면 OK! • 물론 연속형 변수도 경우에 따라 범주화하여 빈도를 보여줄 수 있다 • 물론 여러 가지 형태의 그림(히스토그램, Box plot 등)을 통해 • 분포를 볼 수 있다

  13. 수집한 자료를 어떻게 간결하게 표현할까

  14. 수집한 자료를 어떻게 간결하게 표현할까 • 총열량 섭취 : 환자군(평균 136 kcal) > 대조군 • 총지방산 섭취 : 환자군(평균 10 g) > 대조군 • 전체적으로 평균에 비해 표준편차가 매우 큼 • - 이상점(outlier)이 있는가? • - 분포가 오른쪽으로 치우쳐 있는 형태인가?

  15. 수집한 자료를 어떻게 간결하게 표현할까 • [통계 1-2] • 분포 모습 제시할 때는 확인, 정리된 자료로 분석해야 함! • 자료 확인을 철저히 하지 못하면 논문을 무사히(?) 끝내고 난 뒤에도 • 두고두고 마음이 편치 않을 것이다 • 자료를 깨끗이 정리하고 확인-확인하는 방법뿐이다 도움 되는 방법 [사례 1] 각 변수에 입력오류는 없는가? [사례 2] 무응답자의 자료는 제대로 결측치로 분석되었는가? [사례 3] 각 변수의 기술통계량으로 파악하면 이상한 자료가 없는데 여러 변수를 동시에 고려하니 이상한 자료가 발생할 수 있는가? 종합정리 1-1 본격적인 연구가설 분석 전에 반드시 자료 확인!

  16. 수집한 자료를 어떻게 간결하게 표현할까 종합정리 1-2 자료의 요약 및 정리

  17. 2. 단순분석을 일차적으로 먼저 시행해보자!

  18. 단순분석을 일차적으로 먼저 시행해보자 [가설 2-1] 지방산 섭취가 환자군과 대조군 간에 차이가 있는가? (또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가?) 통계적 가설검정의 여러 가지 방법들에 들어가기에 앞서 통계적 가설검정의 기본적인 원리에 대해 간단하게 알아보자! 앞의 기술통계량에서 환자군은 총 지방산섭취가 60.3g, 대조군은 50.2g 이었다. 즉, 환자군의 총 지방섭취가 대조군 보다 10.1g더 많이 섭취하고 있다.

  19. 단순분석을 일차적으로 먼저 시행해보자 의문 2-1 우리는 이 10.1g의 차이를 어떻게 받아들여야 할까? [통계 2-1] 통계적 가설검정이란 주어진 자료의 좋은 정보를 이용하여 귀무가설 또는 대립가설 중 어떤 것을 선택하는 것이 좋을 지에 대한 의사결정 과정이다. 의문 2-2 동전을 던져 나오는 앞면과 뒷면으로 의사결정을 한다면? 좋은 정보를 이용하여 의사결정 한다면 어떤 정보가 좋은 정보? [통계 2-2] 그러나 좋은 정보를 이용하여 의사결정을 하더라도 의사결정의 오류가 존재한다. 왜 존재할까? 모집단과 표본의 차이라고 생각할 수 있을까?

  20. 단순분석을 일차적으로 먼저 시행해보자 의사결정에 따른 오류 [통계 2-3] 통계학적 의사결정은 제 1종의 오류를 유의수준 내에서 허용하고 제 2종의 오류를 최소화하는 방법을 사용 [통계 2-4] 유의확률 < 유의수준 (일반적으로 0.05)☞대립가설 H1채택 유의확률 > 유의수준 (일반적으로 0.05)☞귀무가설 H0고수

  21. 단순분석을 일차적으로 먼저 시행해보자 이제부터! 자료의 형태에 따라 어떤 통계적 방법을 적용하면 되는지 알아보자. • 변수 구분! • 측정수준에 따라 : 연속형 변수와 범주형 변수 • 설명관계의 방향성에 따라 • : 종속변수 (또는 반응변수)와 독립변수 (또는 설명변수) • 3. 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 됨!

  22. 단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 수축기혈압 • 독립변수 : 두 집단(경구피임약 복용군 / 비복용군)을 구별하는 이분형 범주형 변수 • 가설을 일반화하면“독립된 두 모집단의 수축기혈압의 평균을 비교” [통계적 분석방법] 독립된 두 집단의 t-검정 (모수적 방법), 윌콕슨 순위합 검정(비모수적 방법) [의문 2-1] 두 집단은 경구피임약 복용여부 외에는 다른 요인 (특히 수축기혈압에 영향을 미치는 요인)의 분포에 대해 동질적인가? 동질적이지 못하다면 t-검정의 결과는 의미가 없을 수 있다

  23. 단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 전과 후의 수축기혈압 • 독립변수 : 두 집단(경구피임약 복용군/비복용군)을 구별하는 이분형 범주형 변수 • 가설을 일반화하면“짝을 이룬 쌍에서 (전과 후의) 차에 대한 모평균이 0인가” [통계적 분석방법] paired t-검정 (모수적 방법), 윌콕슨 부호순위 검정(비모수적 방법) [의문 2-2] 관심있는 개입(이 경우 경구피임약 복용) 기간 동안 다른 개입은 없었는가? 다른 개입이 있다면 이 결과의 신뢰성에 문제를 제기할 수 있다.

  24. 단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 FEF • 독립변수 : 6 집단을 구별하는 범주형 변수 • 가설을 일반화하면“독립된 여러(세 집단 이상) 모집단의 평균을 비교” [통계적 분석방법] 일요인 분산분석 (모수적 방법), 크루스칼-월리스 검정(비모수적 방법) [의문 2-3] 집단 들은 흡연력 상태 외에는 다른 요인(특히 FEF에 영향을 미치는 요인)의 분포에 대해 동질적인가?

  25. 단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 부작용 여부에 따른 범주형 변수 • 독립변수 : 치료군을 구별하는 범주형 변수 • 가설을 일반화하면“두 범주형 변수간에 관련성(동일성, 독립성)이 있는가” [통계적 분석방법] 카이제곱 검정 (x2-검정), Fisher의 정확도 검정(exact test) [의문 2-4] 두 치료법에서 다른 요인(특히 부작용에 영향을 미치는 요인)의 분포에 대해 동질적인가? 각 칸의 (기대) 빈도수가 너무 작지(5 미만) 않은가?

  26. 단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 비만도(kg/m2)인 연속변수 • 독립변수 : 총 열량섭취인 연속변수 • 가설을 일반화하면“두 연속형 변수간에 선형적 관련성이 있는가” [통계적 분석방법] 상관분석, 단순회귀분석 [의문 2-5] 총 열량섭취와 비만도의 관계에 영향을 미치는 다른 혼란변수는 없는가? 두 변수간에 선형적 관련성이 있는가(상관분석) 가정한 회귀모형이 적합한가?

  27. 단순분석을 일차적으로 먼저 시행해보자 모수적 방법과 비모수적 방법의 적용 • 모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여 • 특정분포를 가정하고 그 가정된 분포의 모수(parameter)에 대한 • 검정문제를 생각하는 방법 • 모집단의 분포(정규분포)를 가정하므로서 검정통계량의 분포를 • 알 수가 있음 • 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우, • 특히 표본의 수가 작은 경우는 순위(rank)에 기초한 비모수적 • (nonparametric) 방법을 사용하는 것이 바람직하다

  28. 단순분석을 일차적으로 먼저 시행해보자 • [종합정리 2-1] • 측정한 변수를 종속변수와 독립변수, 측정수준에 따라 범주형과 연속형, 그리고 자료의 독립성 여부에 따라  t-검정 (독립된 두 집단, 짝을 이룬 두 집단), x2-검정, 일요인 분산분석, (피어슨) 상관분석, 단순회귀분석 등을 구분하여 적용할 수 있다 • 모집단의 분포를 가정할 수 없는 경우  비모수적 방법으로 윌콕슨 순위합 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, 스피어맨 상관분석 등을 각각 적용할 수 있다 • 자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다

  29. 단순분석을 일차적으로 먼저 시행해보자 이제부터! [예제자료 1]의 가설을 밝혀나가는데 이제까지 언급한 방법들을 어떻게 적용하고 또한 이를 표로 정리하는지 알아보자!

  30. 단순분석을 일차적으로 먼저 시행해보자 [단계 2-1] 주 연구가설에 대한 통계학적 가설검정을 시행하자!

  31. 단순분석을 일차적으로 먼저 시행해보자 [단계 2-2] 주 연구가설에 대해 통제할 다른 변수는 없는가?

  32. 단순분석을 일차적으로 먼저 시행해보자 [의문 2-6 ] 주 연구가설을 밝히는데 위의 비만도, 흡연력, 고혈압과 고지혈증 등의 영향을 통제하지 않으면 어떤 문제가 있는가? [종합정리 2-1] 통계적 가설을 설정하고, 연구자의 가설이 지지되는지 일차적으로 단순한 분석을 시행하자!

  33. 단순분석을 일차적으로 먼저 시행해보자

  34. 3. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?

  35. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? • [통계 3-1] • 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기 • 위해서는 회귀분석적 방법을 많이 사용 • 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을 • 설정하고 (회귀모형) 그 모형을 통해 관련성을 밝히는 방법 • 종속변수가 연속형인 경우는 • 다중 회귀분석 (multiple regression)을 많이 사용 • 종속변수가 범주형인 경우는 • 다중 로지스틱 회귀분석 (logistic regression)을 많이 사용

  36. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? 예제자료 2 • 납제련소 부근에 사는 144명의 어린이들 대상 • 혈중농도 측정하여 위험군(≥40mg/ml)과 정상군으로 분류하고 신경학적인 • 기능에 차이가 있는가를 알아보고자 10초간 finger-wrist tab (MAXFWT)을 • 측정. 연령을 포함하여 이와 관련 있는 여러 가지 요인들 조사 • 변수 • Group : 1=exposed, 2=normal • Sex : 1=male, 2=female • Age : years

  37. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [의문 3-1] 연령(age)과 성(sex)의 영향을 통제한 후 위험군과 정상군 두 군간에 MAXFWT의 차이가 있는가? [통계 3-1] 다중 회귀분석 모형 • 회귀모형:   • 회귀계수의 의미 : 다른 요인을 통제하였을 때, • : exposed 집단에 비해 normal 집단이 MAXFWT가 평균적으로 만큼 높다. • : male에 비해 female 집단이 MAXFWT가 평균적으로 만큼 높다. • : 연령이 1살 증가하면 MAXFWT가 평균적으로 만큼 증가한다

  38. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?

  39. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [의문 3-2 ] 비만도와 흡연력, 그리고 총 열량의 영향을 통제한 후 total fat intake가 증가할 때 IHD의 위험이 증가하는가? [통계 3-2] 다중 로지스틱 회귀분석 모형 • 회귀모형: • 회귀계수의 의미 (odds ratio로 해석) : 다른 요인(x)을 통제하였을 때, • : 총열량에 대한 total fat이 1% 증가하면 IHD에 걸릴 위험이 증가

  40. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?

  41. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [종합정리 3-1] 자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다!

  42. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? • [종합정리 3-2] 회귀모형을 구축하는 전략 • 간단한 분석(단일변량분석)을 통해서 변수간의 정보를 파악하자! • 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 • 위험요인의 가능성이 있다. • - 독립변수간의 상호작용(영향)을 고찰하자 • 단일변량분석에서 어느 정도 관련성을 보이는 독립변수(p<0.3 or p<0.2) • 또는 이 연구에서 관심을 갖는 독립변수, 그리고 혼란변수를 모형에 • 포함하여 자료의 특성에 맞는 회귀분석을 시행하자! • 선택한 회귀분석 모형의 기본가정이 만족되는가? • 최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 • 노력하자!

  43. 감 사 합 니 다

  44. Blaise Pascal (1623-1662) Erasmus Darwin (1731-1802) Francis Galton (1822-1911) Charles Darwin (1809-1882) regression to the “mediocre” Gregor Mendel (1822-1884) Thomas Bayes (1702-1761) Karl Pearson (1857-1936) : 상관분석법 Ronald Aylmer Fisher (1890-1962) : 의학실험계획법, 분산분석법(ANOVA) Jerzy Neyman (1894-1981) : 통계적 가설검정법, “현대통계학” 시작

  45. JNC 5, 1993JNC 6, 1997JNC, 2003 Category SBP DBP Category SBP DBP Category SBP DBP Optimal <120 <80 Normal <120 and <80 Normal <130 <85 Normal <130 <85 Prehypertension 120-139 or 80-89 High-normal 130-139 85-89 High-normal 130-139 85-89 Hypertension Hypertension Hypertension stage 1 140-159 90-99 stage 1 140-159 90-99 stage 1 140-159 or 90-99 stage 2 160-179 100-109 stage 2 160-179 100-109 stage 2 >160 or >100 stage 3 180-209 110-119 stage 3 >180 >110 stage 4 >210 >120 Classification of BP(1993~2003)

  46. 120 130 140 SBP C1 C2 C3 C4 80 C5 C6 C7 C8 85 Categorization of BP / JNC6 C9 C10 C11 C12 90 C13 C14 C15 C16 DBP

  47. 120 140 SBP C1 C2 C3 80 C4 C5 C6 Categorization of BP / JNC7 90 C7 C8 C9 DBP

More Related