医学数据 Meta 分析的统计过程

医学数据Meta分析的统计过程 邓特dengte2008@126.com 桂林医学院流行病与卫生统计学教研室 2014年7月2日

概述 • 60年代开始，在医学文献中，陆续出现了对多个独立研究的统计量进行合并的报道 • 76年，G.V.Glass首先将合并统计量对文献进行综合分析研究的这类方法称为“Meta-Analysis” • 80年代末该方法传入我国，中文译名有荟萃分析，二次分析，汇总分析，集成分析等，但无论何种中文译名都有不足之处，因此，很多学者建议仍然使用“Meta-分析”这一名称

Meta-分析的定义 • Meta-Analysis is a systematic review that uses quantitative methods to summarize the results • Meta-分析是运用定量方法去概括（总结）多个研究结果的系统评价《Evidence-Based Medicine》---David Sackett等，第247页的定义

Meta-分析的定义 • Meta-Analysis a statistical technique for assembling the results of several studies in a review into a single numerical estimate • Meta-分析是文献评价中，将若干个研究结果合并成一个单独的数字估计的统计学方法。《The Cochrane Library》第3页的定义

定性定量 Meta-分析与系统评价 • 在系统评价中，当数据资料适合Meta-分析时，用Meta-分析可以克服传统文献综述的两大难题，其分析结果的可靠性更高 • 当数据资料不适合于作Meta-分析时，系统评价只能解决文献评价的问题，不能解决样本含量的问题，因此，对其分析结论应慎重 • 没有按系统评价标准操作规范实施，或未经严格文献评价的研究，即使用了Meta-分析也不一定是系统评价的研究，更难说是高质量的研究

Meta-分析的统计目的 • 增加统计功效由于单个临床试验往往样本较小，难以明确肯定某种效应，而这些效应对临床医生来说又可能是重要的。 • 解决各研究结果的不一致性。 • 寻求新的假说

Meta-分析实例一 七个阿斯匹林预防心肌梗死的研究资料（取自Fleiss JL）表中ai、bi、ci、di为各研究四格表数，Ni为各研究的样本例数，ai为处理组的实际阳性数

Meta-分析实例二 女童掌骨II型皮质厚度的11个研究方积乾医学统计学与电脑实验第二版上海科学技术出版社，2001，349-350

何时进行meta分析？ 1. 需要作一项紧急决定，时间不允许等待新的研究 2. 目前没有能力开展大规模的临床试验 3. 研究结果矛盾时 • 如果存在异质性，但合并资料任然具有临床上的意义，则可采用随机效应模型；如果存在严重异质性，建议不要进行meta分析

Meta-分析的统计分析过程 • Meta-分析计算的主要步骤 • 计算单个研究的效应量和方差 • 计算单个研究效应量的权重 • 计算合并效应量 • 异质性检验 • 合并效应量的可信区间 • 合并效应量的检验

单个研究的统计量 • 根据资料类型选择单个研究的统计量 • 分类变量可选择的统计量 • 比值比，OR（odds ratio） • 相对危险度，RR（relative risk） • 率差，RD（rate difference） • 数值变量可选择的统计量 • 加权均数差WMD • 标准化均数差SMD

单个研究的方差 • 根据资料类型选择单个研究的统计量di的方差Var(di) 单个研究统计量di的计算方法确定后，其方差的计算方法也随之确定 • 方差可用于可信区间和假设检验的计算

异质性检验与异质性分析 • Meta-分析前先做异质性分析； • 只有同质的资料才能进行合并或比较等统计分析， • 异质性检验（tests for heterogeneity）又称同质性检验（tests for homogeneity）用假设检验方法检验多个独立研究是否具有异质性（同质性）

异质性检验方法 • 目前，多用下面公式计算： • Wi为每个研究的权重，第i各研究的权重Wi按下式计算： • 该检验统计量Q幅从自由度为K-1的卡方（x2）分布，因此，当计算得到Q后，需由卡方分析获取概率，故又将此检验叫做卡方检验（Chisquare test，Chi2）

异质性检验方法 • 若异质性检验结果为p＞0.10时，多个研究具有同质性，可选择固定效应模型（fixed effect model）； • 若多个研究的异质性检验结果为p≤0.10时，多个研究不具有同质性，首先应进行异质性分析和处理，若仍无法消除异质性的资料，可选择随即效应模型（random effect model）

探讨异质性的来源 • 临床异质性（概念上的异质性），如对象特征、诊断、干预、对照、研究地点、评价结局等不同 • 方法学异质性：研究设计与质量不同 • 统计学上的异质性：不同试验中观察得到的效应，其变异性超过了随机误差本身所致的异质性

I2及计算 在revman中，I2可用于衡量多个研究结果间异质程度大小的指标。这个指标用于描述由各个研究所致的，而非抽样误差所引起的变异（异质性）占总变异的百分比．

I2及计算 • I2：异质性的定量分析 • Q is the chi-squared statistic • df is the degrees of freedom • I2值从0%至100%，0%时无异质性，I2值越大，异质性越大； • I2描述了去除抽样误差（机遇）后的异质性。

How much is too much heterogeneity？ • 一般说来，用I2=25%，或50%，或75%将异质性划分为低，中，高； • 但不宜机械应用； • I2大于50%可认为有实质性的异质性。

异质性分析与处理的方法 • 当异质性检验出现p≤0.10时，首先应找出产生异质性的原因，如疗程长短、用药剂量、病情轻重、对照选择等是否相同 • 由上述原因引起的异质性，可使用亚组分析(subgroup analysis）,Breslow-Day法和回归近似法 • 根据Cochrane系统评价要求，在系统评价的计划书中尽可能地对一些重要的亚组间差异进行叙述，也就是说对重要的亚组分析，应在计划书中加以说明 • 此外，在同一个系统评价中，不提倡使用太多的亚组分析

如果存在严重异质性，建议不要进行meta分析，而是根据试验特征如性别、年龄、病情严重程度、疾病分期、基线危险度、干预的强度和时间等进行亚组分析，或进行敏感性分析如果存在严重异质性，建议不要进行meta分析，而是根据试验特征如性别、年龄、病情严重程度、疾病分期、基线危险度、干预的强度和时间等进行亚组分析，或进行敏感性分析 • 或考虑协变量的影响进行meta回归分析，以解释异质性的来源

多个试验效应的合并 • 将多个独立研究的结果合并成某个单一的效应量或效应尺度，即用某个指标的合并统计量，以反映多个独立研究的综合效应 • 怎样合理的对多个独立研究效应合并，是Meta-分析统计过程的主要问题

合并统计量的两种模型 • 固定效应模型（fixed effect model）：若多个研究具有同质性时，可使用固定效应模型 • 随机效应模型（random effect model）：若多个研究不具有同质性时，先对异质原因进行处理，若异质性分析与处理后仍无法解决异质性时，可使用随机效应模型

分类变量（category dichotomous） • 固定效应模型：指标RR、OR • Standard odds ratio法 • Mantel-Haenzel法 • Peto法 • 随机效应模型：指标RR、OR 如：Dersimonian&Laird（D-L）法

数值变量（continuous） • 固定效应模型 • WMD，加权均数差法 • SMD，标准化均数差法 • 随机效应模型 D-L法

资料类型与采用的计算方法

例：WMD加权均数差法 试验组与对照组舒张压改善值的比较

计算各研究的效应值、方差和权重

研究结果的效应值、方差和权重

对各研究结果的效应值进行齐性检验 H0：各研究的效应值相等。 H1：各研究的效应值不相等。由于齐性检验的检验效能较低所以通常将检验水准定为=0.10。计算统计量Q Q=29.694, df =15, p= 0.013。 Q服从自由度为M－1的2分布。

计算合并的效应值 • 固定效应模型的合并效应值：（各研究的效应值相等）其方差为：

计算合并的效应值 • 随机效应模型的合并效应值：（各研究的效应值不等） DerSimonian and Laird方法其方差为：

DerSimonian and Laird方法中权重的计算方法 其中为固定效应模型时效应值的方差，D为随机效应部分的方差。其中为固定效应模型时各研究的权重，Q为齐性检验时的统计量。

研究结果的效应值、方差和权重

WMD的问题 • 对临床的一些重要变化常常不能清楚地反映出来； • 有严格的高质量的标准，标准差较小的研究有较大的权重； • 相同的测量指标并不总是可比的，如美国和英国的医疗费用； • 有些卫生政策可以左右“医疗过程”测量指标的变化。

SMD标准化均数差 • 如果各研究测量相同的指标而采用不同的量度，就需要在合并之前对不同量度进行转换； • 在“转换系数”知道的情况下可直接进行转换； • “标准化”转换可使用： • 量度因子：每个研究中的标准差 • 选择量度：自然标准差单位 • “标准效应量”的计算：效应量=均数差值/平均标准差

合并效应量的检验 • 用假设检验（hypothesis test）的方法检验多个独立研究的总效应量是否具有统计学意义，其原理与常规的假设检验完全相同 • 两种方法： U检验（Z test）卡方检验（Chi square test） • 根据Z或U值或卡方值得到该统计量下概率（P）值 • 若P≤0.05，多个研究的合并效应量由统计学意义 • 若p＞0.05，多个研究的合并统计量没有统计学意义

合并效应量的可信区间 • 可信区间（confidence interval，CI）是按一定的概率估计总体参数（总体均数、总体率）所在的范围（区间） • 如：95%的CI，是指总体参数在该区间的可能性为95% • 可信区间主要有估计总体参数和假设检验两个用途 • 森林图即是根据各个独立研究的95%可信区间及合并效应量的95%可信区间绘制的

OR与RR的可信区间 • 若选择OR或RR位合并统计量时，其95%的可信区间与假设检验的关系如下： • 若其95%CI包含了1，等价于P＞0.05,即合并统计量无统计学意义 • 若其95%CI的上下限均大于1或均小于1，等价于P≤0.05,即合并的统计量有统计学意义

WMD和SMD的可信区间 • 若选择WMD或SMD为合并统计量时，其95%CI与假设检验的关系如下： • 若其95%CI包含的0，等价于P＞0.05，即合并统计量无统计学意义 • 若其95%CI的上下限均大于0或小于0，等价于P≤0.05，即合并效应量由统计学意义

分类变量的实例分析 • 单个分类变量的研究数据 • 分类变量（category，dichotomous）的单个研究的统计量di，可选择OR、RR或RD，四格表数据如下表：

实例一 七个阿斯匹林预防心肌梗死的研究资料（取自Fleiss JL）表中ai、bi、ci、di为各研究四个表数，Ni为各研究的样本例数，ai为处理组的实际阳性数

OR或RR的森林图 • OR或RR的森林图（forest plots），无效线竖线的横轴尺度为1，每条横线为该研究的95%可信区间上下限的连线，其线条长短直观地表示了可信区间范围的大小，线条中央的小方块为OR值的位置，其方块大小为该研究权重大小。若某个研究95%CI的线条横跨为无效竖线，即该研究无统计学意义，反之，若该横线落在无效竖线的左侧或右侧，该研究有统计学意义

例一 Revman4.2.8森林图（M-H法）

例一 Revman4.2.8森林图（Peto法） 纳入的研究个数多时，与M-H法相同。纳入的研究个数少时，采用Peto法，Peto法只有固定效应模型，无随机效应模型

漏斗图及用途 • 漏斗图（funnel plots）最初使用每个研究的处理效应估计值为X轴，样本含量的大小为Y轴的简单散点图（scatter plots） • 对处理效应的估计，其准确性是伴随样本含量的增加而增加，小样本研究的效应估计值分布于图的底部，其分布范围较宽；大样本研究的效应估计值分布范围较窄，当没有发生偏移时，其图形成对称的倒漏斗状，故称之为“漏斗图”

Revman中的漏斗图 • 在Revman软件中，漏斗图是采用OR或RR对数值（logOR或logRR）为横坐标，OR或RR对数值标准误的倒数1/SE(logRR)为纵坐标绘制的，然后，以真数标明横坐标的标尺，而以SE(logRR)标明纵坐标的标尺

漏斗图的用途 • 漏斗图主要用于观察某个系统评价或Meta-分析结果是否存在偏倚，如发表偏倚或其他偏倚。 • 如果资料存在偏倚，会出现不对称的漏斗图，不对称越明显，偏倚程度也就越大。漏斗图的不对称性主要与发表偏倚有关，但也可能存在其他原因 • 定量的方法：Egger检验（线性回归方程）

漏斗图不对称主要原因 • 选择性偏倚（selection bias） • 发表偏移(publication bias) • 语言偏倚（language bias） • 引用偏倚（citation bias） • 重复发表偏倚（multiple publication bias）

医学数据 Meta 分析的统计过程