第五章病例对照研究（ case-control study ）

第五章病例对照研究（case-control study） 1.基本原理 2.研究类型 3.研究实例 4.研究设计与实施 5.资料的整理与分析 6.常见偏倚及其控制 7.实施病例对照研究应注意的问题 8.与队列研究优缺点的比较

病例对照研究设计应用史 • 1843年Guy：职业暴露与肺结核的关系（最早的病例对照研究） • 1884年Louis：著作（最早的概念提出） • 1926年Claypon:生殖因素与乳腺癌关系（最早的符合现代病例对照概念的研究） • 二战后应用广泛 • 60年代以来方法逐步完善

第一节基本原理 过去现在比较人数暴露 a/(a+c) a c b/(b+d) b d + 病例 - + 对照 -

病例对照研究（case control study）：以一组患有某病者（病例）和一组或几组未患该病但在某些已知因素方面与病例组相似者（对照）为研究对象，调查他们过去是否暴露于某个或某些可疑致病因素或暴露剂量，比较两组暴露比值，推断研究因子作为病因的可能性。 • 暴露（exposure）：指研究对象接触某些因素，或具备某些特征，或处于某种状态。 • 暴露因素（exposure factor)：可以是机体固有的、先天的，也可以是体外的、后天的，暴露因素也叫研究变量（variable）。 • 混杂与混杂因素（confounding and confounding factor)：研究某因素与某疾病关联时，由于某个既与疾病有制约关系，又与所研究的因素有联系的外来因素的影响，掩盖或扩大了所研究的因素与疾病的联系，这种现象或影响叫混杂，其所带来的偏倚叫混杂偏倚，该外来因素叫混杂因素。

第二节研究类型 一、病例与对照不匹配：对照数目与病例相等或略多二、病例与对照匹配（matching）：要求对照在某些因素上与病例保持一致。如年龄匹配 1、频数匹配（frequency matching）：匹配因素所占比例在病例组和对照组一致。如病例组男女各半，平均年龄56岁。对照组亦应如此（无显著性差异）。 2、个体匹配（individual matching）：病例和对照以个体为单位进行匹配。目的：提高研究效率（study efficiency）匹配因素：已知或疑为混杂因子（confounding factor）常见匹配：1:1（配对）；1:2；……1:R

匹配过度（over matching）：匹配增加了对照选择的难度，把不必要项目列入匹配，丢失了信息，降低了研究效率。匹配程度：连续变量可划分为若干组，按组匹配；离散变量可完全匹配。（1）研究因素和中间变量：吸烟——→血脂↑——→心血管病（2）只与可疑因素有关而与疾病无关的因素避孕药——→子宫内膜癌 ↑ ↓ 宗教

三、衍生的研究类型 1、巢式病例对照研究（套迭式；嵌入式）（nested case-control study）：通过队列研究，确认随访时发生的病例，作为病例组，以同一队列的未发病者为对照。优点：（1）暴露资料在发病或死亡前获得，时间顺序清楚，无回忆偏倚。（2）两组可比性好（3）可提高统计及检验效率暴露率高；共同暴露开始时间缺点：只能比较暴露的等级例：Kent（1988）：血胆固醇与癌症

类型： （1）前瞻性(prospective nested case-control study)：研究开始时据一定条件选择某一人群作为队列，前瞻性地随访一定时间确定病例组和对照组。（2）回顾性（retrospective nested case-control study):据研究之前一段特定时间的情况选择某一人群作为队列，据现在的情况确定病例组和对照组。

2、病例队列研究（case-cohort study)(病例参比式研究，case-base reference study)：队列研究开始时，在队列中按一定比例随机抽取一个一定量的有代表性的样本作为对照组，观察结束时，队列中出现的全部所研究的病例为病例组，与上述对照组比较。特点： 1）对照是随机选取的，不与病例进行匹配 2）事先抽中的对照组成员如发生所研究的疾病，既可作为病例组，也可作为对照组 3）可以研究几种疾病，但对照组是同一样本

3、病例交叉研究（case-crossover design)：比较相同研究对象在急性事件发生前一段时间的暴露情况与未发生事件的某段时间内的暴露情况，如果暴露与少见事件（疾病）有关，则在事件发生前的这一段时间内的暴露频率应该高于更早时间内的暴露频率。

4、单纯病例研究（case only study）；（病例系列研究case series study）；（病例－病例研究 case-only studies）：仅用病例作为研究对象来评估所研究的环境因素与易感基因型的相互作用。其设计原理是以是否暴露与环境致病因素和易感基因型为标准将资料整理成2×2表计算公式为： ORca=(A11A00)/(A10A01) 无对照病例研究资料整理表 * 1：暴露 0：非暴露 A：病例例数

第三节研究实例 Herbst关于年轻女性阴道腺癌的研究 • 美国波士顿Vincent记念医院，1966-69年发现7例年轻女性阴道腺癌 • 该病为罕见病：占女性生殖系统癌症0.1%-0.2%，50岁以上多见 • 怀疑因素：使用阴道局部刺激物、阴道冲洗、阴道塞史；性交史；避孕药应用史，均无意义。 • 重新研究目的：用病例对照研究比较病例从胚胎期至发病前的情况。 • 研究对象：7例加1例另一医院的阴道透明细胞癌患者。 • 1：4配对：要求对照与病例在同等级病房中出生，时间前后≯10天 • 使用统一调查表，培训调查员 • 结果：此次怀孕流血、以往流产史及此次怀孕使用雌激素史三个因素有显著意义。 • 结论：母亲怀孕早期服用保胎药已烯雌酚使其女儿发生阴道腺癌的危险性增加。

第四节研究设计与实施 一、一般步骤 • 提出病因假设 • 制定研究计划 • 收集资料 • 对收集到的资料进行整理与分析 • 总结并提交研究报告

二、具体实施 （一）提出假设：可发现或检验病因线索（二）明确研究目的，选择适应的对照形式：不匹配或频数匹配：探讨病因线索个体匹配：提高统计效率，适于罕见疾病对照数目：按Pitman效率递增公式：效率=2R/(R+1) 1:1时，效率=2×1/(1+1)=1 1:2时，效率=2×2/(2+1)=1.3 1:3时，效率=1.5 1:4时，效率=1.6 1:4以上，效率增加缓慢，但对照选择难度增加，故≯1:4

（三）病例与对照的来源与选择 1、病例的选择：（1）以医院为基础（hospital-based）：某期间内全部门诊或住院病人；病案及出院记录（2）以社区人群为基础（community-based）：社区的监测、普查、抽样调查中发现的病例注意：明确的诊断标准（国内外统一；自定）；与对照的可比性（性别、年龄等）；新发、现患、死亡病例 2、对照：（理想：全人群或非病人群的随机样本现实：病例的定义可确定其源人群，对照应为病例源人群的随机样本）（1）同一或多个医院其他病人：那些与暴露没联系者吸烟与肺癌：排除呼吸道疾病入院者做对照（2）人群对照（社区、社团非病例或健康人）：随机抽样；随机数字拨号（3）朋友、同事、亲属及死亡对照

（四）确定样本量（size of sample） 1、影响样本量的因素（1）对照组的暴露率（P0）（2）估计的RR或OR （3）希望的显著性水平（a=0.05 or =0.01) 假阳性错误（false positive error）或称第一类错误（type I error）即由于判断失误，从而拒绝了原本正确的无效假设。在统计推断上指允许犯假阳性的概率。1- a 称为精确度。（4）希望的把握度（power）或称功效，（1- b） • b为假阴性错误（false negative error or type II error），指由于统 • 计量（t）没有超过显著水平，从而接受了原本不正确的无效假设。

2、估计方法 （1）非匹配设计：病例数=对照数例：吸烟与肺癌，预期RR=2.0，人群吸烟率(p0)=20%，定：a=0.05（双侧）b=0.1 查表得: Ua=1.96 Ub=1.28 p1=(0.2×2)/(1+0.2×1)=0.333 =(0.2+0.333)/2=0.267 =1-0.267=0.733 n=2×0.267×0.733(1.96+1.282)2/0.333-0.2)2 =232 （查表得：n=229）

（2）非匹配调查：病例数≠对照数 设：病例数:对照数=1:c；则病例数为： p1计算同上式；对照数=cn （3）1:1配对设计：Schlesselman公式：总对子数：M≈m/(p0q1+p1q0) m为结果不一致的对子数 p0；p1为目标人群中对照组和病例组估计暴露率

例：研究口服避孕药与先天性心脏病的关系，设a=0.05（双侧），b=0.1；对照组暴露比例p0=0.3；预期RR=2.0例：研究口服避孕药与先天性心脏病的关系，设a=0.05（双侧），b=0.1；对照组暴露比例p0=0.3；预期RR=2.0 求：需要的总对子数？解：查表得: Ua=1.96 Ub=1.28 p1=P0RR/[1+p0(RR-1)]=0.3×2/[1+0.3(2-1)]=0.46 p=RR/(1+RR)=2/(1+2)=2/3=0.67 q1=1-p1=1-0.46=0.54 q0=1-p0=1-0.3=0.7 总对子数：M≈m/(p0q1+p1q0) =90/(0.3×0.45+0.46×0.7)=186（人）

（五）获取研究因素的信息 1、变量的选定：与目的有关的变量不能少，且要细致（吸烟：量、时间、种类、方式、戒烟时间等）；无关的项目不能有。 2、变量的规定：明确规定，统一标准（吸烟者：每天吸烟至少一支，持续一年以上者） 3、变量的测量：定性（是、否）；半定量（经常、偶尔、不）；定量（平均每周几次？平均每次多少？） 4、使变量符合规定：以客观手段与证据为准绳（病情用医疗档案核准；职业史以工厂档案核准；空气、水污染用检测结果核准；吸烟量由亲属核准等）（六）资料收集调查问卷；查阅档案；采样化验；实地查看等。

第五节资料的整理与分析 一、资料的整理与分析原则 1、比较两组暴露比例有无显著性差异 2、用暴露优势比估计患病优势比（联系强度） 3、控制混杂因素：匹配；分层；多因素分析二、方资料的分析（一）描述性统计 1、研究对象的一般特征 2、均衡性检验

（二）统计推断 分析类型：不分层资料非个体匹配资料分层资料 1：1配对个体匹配资料 1：2配对 1：M配对分级暴露资料多因素分析

病例对照研究中表示联系强度的指标 比值比( 比数比; 优势比; 交叉乘积比; odds ratio; OR ) :病例组暴露比值与对照组暴露比值之比。病例组暴露比值:对照组暴露比值: 比值比： OR取值为0~∞，OR>1为“正”关联，说明发病危险度增大; OR<1为“负”关联，说明发病危险度减少。 OR≈RR的条件：1）良好的代表性 2）人群疾病频率较低（<5%）

OR与RR之关系 队列研究资料病例对照研究资料

相对危险度（RR）与关联强度 (Monson RA, 1980)

1、非个体匹配不分层资料 （1）整理表格表口服避孕药(OC)与心肌梗死(MI)关系（2）显著性检验 c2=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)=7.7 c20.01(1)=6.63<7.7 P<0.01

(3) 计算并检验联系强度 计算 OR=ad/bc=2.2 检验(Woolf 的logit近似法) Z值的判定标准: Z P >1.96 <0.05 >2.58 <0.01 >3.08 <0.01 本例: Z=2.47>2.58 P<0.01

（4）OR可信区间（confidence interval,，CI) 1）Woolf法：本例：Var(lnOR)=0.0826 OR95%CI=ln2.2±1.96×0.2874 =1.3218~0.2252 OR95%CI =exp(1.3218; 0.2252) =1.25~3.75 2)Miettinen法：本例：

2、非个体匹配分层资料 1）特点（1）可评价分层因素本身作用及其与暴露之关系（2）离散变量可完全控制分层因素的混杂作用，连续变量取决于分层程度（3）简单易行，一目了然，并帮助正确设计多因素模型（4）缺点是丢失效率，分层太多，层中例数会出现 “零” 2）资料整理表5-6 病例对照研究分层资料整理表

表口服避孕药与心机梗死关系病例对照研究按年龄分层分析（3）计算各层OR： OR1=（21×59）/（26 ×17）=2.8 OR2=（18 ×95）/（88 ×7）=2.78 可见两层OR值均较不分层时大。

分层OR值的齐性检验（Woolf法） 1、计算各层ORi、lnORi、Var(lnORi)、wi： Var(lnORi)=1/a+1/b+1/c+1/d wi=1/ Var(lnORi) 2、进行c2检验： n为层数；自由度为n-1

表 OR齐性检验资料整理表 计算总OR的： ORw=e1.0266=2.7915 计算总OR的标准误：计算总OR95%CI： ORw95%CI=e1.0266-1.96×0.3055~e1.0266+1.96×0.3055=1.5339~5.080

作c2检验： • c20.01(1)=6.63<7.5621 P<0.01 • 结论：各层间的OR值差异显著，说明两个资料不同质，总OR值不能说明年龄、口服避孕药及心肌梗死的关系。因此计算总OR值无意义。

表5-8 年龄与MI之关联 OR=0.48；c2=7.27 说明年龄与心肌梗死有联系(小年龄有保护作用)。 ∵年龄不是OC和MI的中间环节表5-8 年龄与OC之关联 OR=3.91；c2=8.89 说明年龄与口服避孕药也有联系。 ∴年龄是研究OC与MI关系时的混杂因素进一步分析非暴露组年龄与MI及对照组年龄与OC之关系

（4）计算总OR值： Mantel-Haenszel公式： 本例：ORMH=2.79 （5）计算总c2值：Mantel-Haenszel公式：其中I为总层数，i 为第几层本例 =11.79 u=处理组-1=4-1=3 P<0.01

（6）估计总OR值95%CI （7）计算标准化OR值：各层间OR值相差很大时，计算标准化死亡比（standard mortality ratio, SMR）或标准化率比（standard rate ratio, SRR），来说明暴露组与非暴露组死亡率或发病率之比值。

分层分析的过程总结 每层OR 异质齐性检验标化OR 同质总ORMH OR不等非暴露组混杂因素粗分析分层分析与疾病之关系 (OR、c2）是否混杂 OR相等对照组混杂因素与研究因素之关系结论混杂方向及大小？

3、分级暴露资料 （1）资料整理表5-11 男性每日的吸烟支数与肺癌之关系 c2=43.15 n=3 P<0.001（ R×C表卡方检验）

（2）作R×C表卡方检验 （3）计算各分级的OR值：例：Xi=5~ OR=(250 ×27)/(293×2)=11.52 （4）进行趋势卡方检验（自由度为1）：

Xi：取每个暴露水平的中点值；第i 暴露水平 的Xi=i （如：X0=0；X1=1；X2=2；…）（但是，Epi Ifo的取值为每个暴露水平的初值，本例为X0=0；X1=1；X2=5；X3=15）本例：（按Epi Info 计算） T1 =6743; T2 =12373; T3 =7587649; V =186886.17 c2 =31.52 P <0.001 （按Xi=i计算，c2 =63.0842）

4、1：1配对资料分析 （1）资料整理表5-13 外源性雌激素与子宫内膜癌的关系

（2）卡方检验：McNemar公式 大样本： c2= (b-c)2/(b+c) 小样本： c2= (|b-c|-1)2/(b+c) 本例： c2= (|b-c|-1)2/(b+c)=19.53 P <0.005 （3）计算OR值： OR=c/b（b≠0）本例： OR=9.67 （4）计算OR95%CI：Miettinen法本例： ORL~ORU=3.56~26.24

人流史 5、1：2配对资料的分析（1）资料整理表5-14 18个“对子”人工流产史与宫外孕关系（2）计算OR值： OR=（b+2c）/（2d+e）= 16 （3）c2检验：宫外孕

式中： b的期望值： E(b)=2/3(b+d)=2/3(6+0)=4 c的期望值： E(c)=1/3(c+e)=1/3(5+1)=2 b的方差： V(b)=2/9(b+d)=1.33 c的方差： V(c)=2/9(c+e)=1.33 自由度=1， P <0.05 （4）OR95%CI =

6、病因分值（ etiologic fraction，EF） （ 1）暴露人群：（归因危险度百分比 attributive riskproportion， ARP， AR%） AFe =ARP=AR%= (Ie – Iu)/Ie = (OR-1)/OR I：发病率；e：暴露人群 u：非暴露人群暴露人群中因暴露于某因素引起的发病占全部病例的比例。如HBsAg携带者与肝癌关系研究表明，AFe=90.9%，说明表面抗原阳性者中发生的肝癌数占该组人群全部肝癌数的90.9%。（2）总人群：（人群特异危险度百分比 population attributive risk proportion， PARP， PAR%） AFp =PARP=PAR%=(Ip – Iu)/Ip = Pe(OR-1)/1+Pe(OR-1) Pe：总人群暴露率（用对照组代替）

7、多因素分析 • Logistic回归模型（Logistic regression model）条件 (conditional)：个体配对病例对照研究非条件 (unconditional)：非个体匹配病例对照研究 • Loglinear回归模型

三、效力（power）：拒绝无效假设的能力 （1）1：1配对：已知：人群暴露比为P=0.3；病例=对照=50；a=0.5；OR=2 求：功效=？计算：功效=1-b； b 通过Z b值查表；查表，Z b=-0.3，b=0.62，功效=1-b=0.38=38%；即在给定条件下，该研究检验出OR≠1的概率为38%(应在75%以上) , 以上检验未分层。

第六节常见偏倚（bias）及其控制 一、选择偏倚（一）入院偏倚（Berkson）：对照为部分病人；病例为特定病例；医院、病人双向选择（随机；多医院选择对象）（二）现患病例-新发病例偏倚（Neyman bias）：存活旧病例的信息只与存活有关；或病例改变习惯（新发病例）（三）检出征候偏倚（unmasking bias）：因某些与致病无关的症状就诊，提高了早期病例检出率，过高的估计了暴露程度（四）时间效应偏倚（time effect bias）：慢性病，即将发病者、已有早期病变但未检出、已有病变因监测手段未检出从而划入对照组（用敏感检查技术；长期纵向观察）

二、信息偏倚（information bias; 观察或测量偏倚）（一）回忆偏倚(recall bias)：调查和事件时间间隔、事件重要性、被调查者构成、调查技术等造成回忆失真。病例回忆比对照准确但容易夸大。（选择重要指标；问卷设计；调查技巧）（二）调查偏倚(investigation bias)：来自调查者和被调查者：调查环境；对调查的态度；诱导偏倚（客观指标；调查员培训；同环境、检查手段、时间、调查员）三、混杂偏倚(confounding bias)：由于混杂因子的影响造成（匹配；分层；多因素分析）。混杂与混杂因子（confounding and confounding factor)：研究某因素与某疾病关联时，由于某个既与疾病有制约关系，又与所研究的因素有联系的外来因素的影响，掩盖或扩大了所研究的因素与疾病的联系，这种现象或影响叫混杂，其所带来的偏倚叫混杂偏倚，该外来因素叫混杂因素。

第五章病例对照研究（ case-control study ）