700 likes | 1.42k Views
医学数据 Meta 分析的统计过程. 邓特 dengte2008@126.com 桂林医学院流行病与卫生统计学教研室 2014 年 7 月 2 日. 概述. 60 年代开始,在医学文献中,陆续出现了对多个独立研究的统计量进行合并的报道 76 年, G.V.Glass 首先将合并统计量对文献进行综合分析研究的这类方法称为 “ Meta-Analysis” 80 年代末该方法传入我国,中文译名有 荟萃分析 ,二次分析,汇总分析,集成分析等,但无论何种中文译名都有不足之处,因此,很多学者建议仍然使用“ Meta- 分析”这一名称. Meta- 分析的定义.
E N D
医学数据Meta分析的统计过程 邓特dengte2008@126.com 桂林医学院流行病与卫生统计学教研室 2014年7月2日
概述 • 60年代开始,在医学文献中,陆续出现了对多个独立研究的统计量进行合并的报道 • 76年,G.V.Glass首先将合并统计量对文献进行综合分析研究的这类方法称为“Meta-Analysis” • 80年代末该方法传入我国,中文译名有荟萃分析,二次分析,汇总分析,集成分析等,但无论何种中文译名都有不足之处,因此,很多学者建议仍然使用“Meta-分析”这一名称
Meta-分析的定义 • Meta-Analysis is a systematic review that uses quantitative methods to summarize the results • Meta-分析是运用定量方法去概括(总结)多个研究结果的系统评价 《Evidence-Based Medicine》---David Sackett等,第247页的定义
Meta-分析的定义 • Meta-Analysis a statistical technique for assembling the results of several studies in a review into a single numerical estimate • Meta-分析是文献评价中,将若干个研究结果合并成一个单独的数字估计的统计学方法。 《The Cochrane Library》第3页的定义
定性 定量 Meta-分析与系统评价 • 在系统评价中,当数据资料适合Meta-分析时,用Meta-分析可以克服传统文献综述的两大难题,其分析结果的可靠性更高 • 当数据资料不适合于作Meta-分析时,系统评价只能解决文献评价的问题,不能解决样本含量的问题,因此,对其分析结论应慎重 • 没有按系统评价标准操作规范实施,或未经严格文献评价的研究,即使用了Meta-分析也不一定是系统评价的研究,更难说是高质量的研究
Meta-分析的统计目的 • 增加统计功效 由于单个临床试验往往样本较小,难以明确肯定某种效应,而这些效应对临床医生来说又可能是重要的。 • 解决各研究结果的不一致性。 • 寻求新的假说
Meta-分析实例一 七个阿斯匹林预防心肌梗死的研究资料(取自Fleiss JL) 表中ai、bi、ci、di为各研究四格表数,Ni为各研究的样本例数,ai为处理组的实际阳性数
Meta-分析实例二 女童掌骨II型皮质厚度的11个研究 方积乾 医学统计学与电脑实验 第二版 上海科学技术出版社,2001,349-350
何时进行meta分析? 1. 需要作一项紧急决定,时间不允许等待新的研究 2. 目前没有能力开展大规模的临床试验 3. 研究结果矛盾时 • 如果存在异质性,但合并资料任然具有临床上的意义,则可采用随机效应模型;如果存在严重异质性,建议不要进行meta分析
Meta-分析的统计分析过程 • Meta-分析计算的主要步骤 • 计算单个研究的效应量和方差 • 计算单个研究效应量的权重 • 计算合并效应量 • 异质性检验 • 合并效应量的可信区间 • 合并效应量的检验
单个研究的统计量 • 根据资料类型选择单个研究的统计量 • 分类变量可选择的统计量 • 比值比,OR(odds ratio) • 相对危险度,RR(relative risk) • 率差,RD(rate difference) • 数值变量可选择的统计量 • 加权均数差WMD • 标准化均数差SMD
单个研究的方差 • 根据资料类型选择单个研究的统计量di的方差Var(di) 单个研究统计量di的计算方法确定后,其方差的计算方法也随之确定 • 方差可用于可信区间和假设检验的计算
异质性检验与异质性分析 • Meta-分析前先做异质性分析; • 只有同质的资料才能进行合并或比较等统计分析, • 异质性检验(tests for heterogeneity) 又称同质性检验(tests for homogeneity) 用假设检验方法检验多个独立研究是否具有异质性(同质性)
异质性检验方法 • 目前,多用下面公式计算: • Wi为每个研究的权重,第i各研究的权重Wi按下式计算: • 该检验统计量Q幅从自由度为K-1的卡方(x2)分布,因此,当计算得到Q后,需由卡方分析获取概率,故又将此检验叫做卡方检验(Chisquare test,Chi2)
异质性检验方法 • 若异质性检验结果为p>0.10时,多个研究具有同质性,可选择固定效应模型(fixed effect model); • 若多个研究的异质性检验结果为p≤0.10时,多个研究不具有同质性,首先应进行异质性分析和处理,若仍无法消除异质性的资料,可选择随即效应模型(random effect model)
探讨异质性的来源 • 临床异质性(概念上的异质性),如对象特征、诊断、干预、对照、研究地点、评价结局等不同 • 方法学异质性:研究设计与质量不同 • 统计学上的异质性:不同试验中观察得到的效应,其变异性超过了随机误差本身所致的异质性
I2及计算 在revman中,I2可用于衡量多个研究结果间异质程度大小的指标。这个指标用于描述由各个研究所致的,而非抽样误差所引起的变异(异质性)占总变异的百分比.
I2及计算 • I2:异质性的定量分析 • Q is the chi-squared statistic • df is the degrees of freedom • I2值从0%至100%,0%时无异质性,I2值越大,异质性越大; • I2描述了去除抽样误差(机遇)后的异质性。
How much is too much heterogeneity? • 一般说来,用I2=25%,或50%,或75%将异质性划分为低,中,高; • 但不宜机械应用; • I2大于50%可认为有实质性的异质性。
异质性分析与处理的方法 • 当异质性检验出现p≤0.10时,首先应找出产生异质性的原因,如疗程长短、用药剂量、病情轻重、对照选择等是否相同 • 由上述原因引起的异质性,可使用亚组分析(subgroup analysis),Breslow-Day法和回归近似法 • 根据Cochrane系统评价要求,在系统评价的计划书中尽可能地对一些重要的亚组间差异进行叙述,也就是说对重要的亚组分析,应在计划书中加以说明 • 此外,在同一个系统评价中,不提倡使用太多的亚组分析
如果存在严重异质性,建议不要进行meta分析,而是根据试验特征如性别、年龄、病情严重程度、疾病分期、基线危险度、干预的强度和时间等进行亚组分析,或进行敏感性分析如果存在严重异质性,建议不要进行meta分析,而是根据试验特征如性别、年龄、病情严重程度、疾病分期、基线危险度、干预的强度和时间等进行亚组分析,或进行敏感性分析 • 或考虑协变量的影响进行meta回归分析,以解释异质性的来源
多个试验效应的合并 • 将多个独立研究的结果合并成某个单一的效应量或效应尺度,即用某个指标的合并统计量,以反映多个独立研究的综合效应 • 怎样合理的对多个独立研究效应合并,是Meta-分析统计过程的主要问题
合并统计量的两种模型 • 固定效应模型(fixed effect model):若多个研究具有同质性时,可使用固定效应模型 • 随机效应模型(random effect model):若多个研究不具有同质性时,先对异质原因进行处理,若异质性分析与处理后仍无法解决异质性时,可使用随机效应模型
分类变量(category dichotomous) • 固定效应模型:指标RR、OR • Standard odds ratio法 • Mantel-Haenzel法 • Peto法 • 随机效应模型:指标RR、OR 如:Dersimonian&Laird(D-L)法
数值变量(continuous) • 固定效应模型 • WMD,加权均数差法 • SMD,标准化均数差法 • 随机效应模型 D-L法
例:WMD加权均数差法 试验组与对照组舒张压改善值的比较
对各研究结果的效应值进行齐性检验 H0:各研究的效应值相等。 H1:各研究的效应值不相等。 由于齐性检验的检验效能较低所以通常将检验水准定为=0.10。 计算统计量Q Q=29.694, df =15, p= 0.013。 Q服从自由度为M-1的2分布。
计算合并的效应值 • 固定效应模型的合并效应值 : (各研究的效应值相等) 其方差为:
计算合并的效应值 • 随机效应模型的合并效应值 : (各研究的效应值不等) DerSimonian and Laird方法 其方差为:
DerSimonian and Laird方法中权重 的计算方法 其中 为固定效应模型时效应值的方差,D为随机效应部分的方差。 其中 为固定效应模型时各研究的权重,Q为齐性检验时的统计量。
WMD的问题 • 对临床的一些重要变化常常不能清楚地反映出来; • 有严格的高质量的标准,标准差较小的研究有较大的权重; • 相同的测量指标并不总是可比的,如美国和英国的医疗费用; • 有些卫生政策可以左右“医疗过程”测量指标的变化。
SMD标准化均数差 • 如果各研究测量相同的指标而采用不同的量度,就需要在合并之前对不同量度进行转换; • 在“转换系数”知道的情况下可直接进行转换; • “标准化”转换可使用: • 量度因子:每个研究中的标准差 • 选择量度:自然标准差单位 • “标准效应量”的计算: 效应量=均数差值/平均标准差
合并效应量的检验 • 用假设检验(hypothesis test)的方法检验多个独立研究的总效应量是否具有统计学意义,其原理与常规的假设检验完全相同 • 两种方法: U检验(Z test) 卡方检验(Chi square test) • 根据Z或U值或卡方值得到该统计量下概率(P)值 • 若P≤0.05,多个研究的合并效应量由统计学意义 • 若p>0.05,多个研究的合并统计量没有统计学意义
合并效应量的可信区间 • 可信区间(confidence interval,CI)是按一定的概率估计总体参数(总体均数、总体率)所在的范围(区间) • 如:95%的CI,是指总体参数在该区间的可能性为95% • 可信区间主要有估计总体参数和假设检验两个用途 • 森林图即是根据各个独立研究的95%可信区间及合并效应量的95%可信区间绘制的
OR与RR的可信区间 • 若选择OR或RR位合并统计量时,其95%的可信区间与假设检验的关系如下: • 若其95%CI包含了1,等价于P>0.05,即合并统计量无统计学意义 • 若其95%CI的上下限均大于1或均小于1,等价于P≤0.05,即合并的统计量有统计学意义
WMD和SMD的可信区间 • 若选择WMD或SMD为合并统计量时,其95%CI与假设检验的关系如下: • 若其95%CI包含的0,等价于P>0.05,即合并统计量无统计学意义 • 若其95%CI的上下限均大于0或小于0,等价于P≤0.05,即合并效应量由统计学意义
分类变量的实例分析 • 单个分类变量的研究数据 • 分类变量(category,dichotomous)的单个研究的统计量di,可选择OR、RR或RD,四格表数据如下表:
实例一 七个阿斯匹林预防心肌梗死的研究资料(取自Fleiss JL) 表中ai、bi、ci、di为各研究四个表数,Ni为各研究的样本例数,ai为处理组的实际阳性数
OR或RR的森林图 • OR或RR的森林图(forest plots),无效线竖线的横轴尺度为1,每条横线为该研究的95%可信区间上下限的连线,其线条长短直观地表示了可信区间范围的大小,线条中央的小方块为OR值的位置,其方块大小为该研究权重大小。若某个研究95%CI的线条横跨为无效竖线,即该研究无统计学意义,反之,若该横线落在无效竖线的左侧或右侧,该研究有统计学意义
例一 Revman4.2.8森林图(Peto法) 纳入的研究个数多时,与M-H法相同。 纳入的研究个数少时,采用Peto法,Peto法只有固定效应模型,无随机效应模型
漏斗图及用途 • 漏斗图(funnel plots)最初使用每个研究的处理效应估计值为X轴,样本含量的大小为Y轴的简单散点图(scatter plots) • 对处理效应的估计,其准确性是伴随样本含量的增加而增加,小样本研究的效应估计值分布于图的底部,其分布范围较宽;大样本研究的效应估计值分布范围较窄,当没有发生偏移时,其图形成对称的倒漏斗状,故称之为“漏斗图”
Revman中的漏斗图 • 在Revman软件中,漏斗图是采用OR或RR对数值(logOR或logRR)为横坐标,OR或RR对数值标准误的倒数1/SE(logRR)为纵坐标绘制的,然后,以真数标明横坐标的标尺,而以SE(logRR)标明纵坐标的标尺
漏斗图的用途 • 漏斗图主要用于观察某个系统评价或Meta-分析结果是否存在偏倚,如发表偏倚或其他偏倚。 • 如果资料存在偏倚,会出现不对称的漏斗图,不对称越明显,偏倚程度也就越大。漏斗图的不对称性主要与发表偏倚有关,但也可能存在其他原因 • 定量的方法:Egger检验(线性回归方程)
漏斗图不对称主要原因 • 选择性偏倚(selection bias) • 发表偏移(publication bias) • 语言偏倚(language bias) • 引用偏倚(citation bias) • 重复发表偏倚(multiple publication bias)