940 likes | 1.08k Views
医学期刊统计学误用分析. 李子建 济南军区疾病预防控制中心 20 13 . 12. 1. 医学期刊统计学错误概述. 国外学者对一些英文权威医学期刊调查表明,统计学误用率为 50% 的不在少数,有的甚至高达 70% 或 100% 。 Glantz 调查了 《Circulation Research》 和 《Circulation》 杂志中发表的文章,分别有 61% 和 44% 具有统计学错误。 Kanter 等调查了 1992 年 7 月到 1993 年 6 月 《Transfusion》 杂志发表的文章,发现 75% 的文章至少存在一处统计学错误。.
E N D
医学期刊统计学误用分析 李子建 济南军区疾病预防控制中心 2013.12
1.医学期刊统计学错误概述 • 国外学者对一些英文权威医学期刊调查表明,统计学误用率为50%的不在少数,有的甚至高达70%或100%。 • Glantz调查了《Circulation Research》和《Circulation》杂志中发表的文章,分别有61%和44%具有统计学错误。 • Kanter等调查了1992年7月到1993年6月《Transfusion》杂志发表的文章,发现75%的文章至少存在一处统计学错误。
希腊约阿尼纳大学的Ioannidis等人对1990-2003年期间发表在N Engl J Med、JAMA和Lancet三大著名医学杂志上,而且引用次数在1000次以上的文献进行调查。 结果显示,在49篇高引用率的原始文献中,45篇声称干预方法有效。而报告结果被以后的研究所否定的有7篇(15.6%),最初报告的疗效被夸大的有7篇(15.6%),因此接近1/3的研究结果没有经受住时间的考验。
国际医学科研悖论 美国于1958年开始在外科手术中采用麻醉剂氟烷,到1962年突然掀起一场风波——麻醉剂氟烷有严重的副作用。导致部分患者病情恶化、发热、肝脏大片坏死而死亡。这关系到麻醉剂氟烷能否继续使用!
国际医学科研悖论 后来的研究表明:与氟烷、喷妥撒、环丙烷、乙醚和其他麻醉剂相应的死亡率分别为2.1%、2.0%、2.6%、2.0%和2.5%。 风波自然平息!
国际医学科研悖论 1978年8月9号光明日报刊登一条科技信息:研究者对美国20个城市做饮水氟化研究,10个城市的饮水氟化,而另10个城市未氟化作对照。 结论认为饮水氟化有致癌作用。但过了一个时期,光明日报对此消息进行了更正。
国内期刊 • 凌瑞珠阅读了《中华医学检验杂志》,发现其原著中50%~70% 存在统计误用。 • 王倩等调查了国内5种中华系列杂志发表的论文,发现54%的文章不能够正确应用统计分析方法。 • 毛宗福等报告了5种中华核心期刊其论著中统计推断应用缺陷率为62%。 • 胡良平一直关注国内一流生物医学类杂志的发展动向和水平变化情况。通过分析发表在这些核心期刊上的论文,发现其平均的统计学误用率达80%;一些国家自然科学基金资助的重大科研项目论文,50%以上存在明显的统计学错误。
医学统计学的应用状况 • 近几十年来,临床论著中统计应用缺陷没有发生根本改善,误用率仍居高不下。很多医学科研工作者对统计学的作用重视不够,突出表现在: • 忽视医学科研设计; • 在统计分析时盲目套用统计分析方法; “万能”的t检验和卡方检验 • 对统计分析结果解释时轻描淡写,一笔带过。 • 把统计学当作无关紧要的“修饰物”,严重影响了医学科研工作的科学性与严谨性。
2.医学期刊统计学错误辨析 • 实验设计 • 资料的表达与描述 • 定量资料分析 • 定性资料分析 • 相关回归分析 • 多元资料分析 • 结果解释
2.1实验设计中常见的统计学错误 • 缺乏完善的实验设计计划; • 未严格遵循“随机”、“对照”、“重复”、“均衡”的原则; • 用单因素设计取代多因素设计; • 未严格按照实验设计类型正确地进行实验和收集数据。
实验因素 • 因素:影响实验结果的各种原因,统称 为因素。 • 因素分为:实验因素与非实验因素 • 实验因素:研究者希望着重考察的实验条 • 件,称为实验因素。 • 非实验因素:除实验因素之外的其他所 • 有因素都属于非实验因素。
实验因素 • 温度、药物、剂量、作用时间等 • 通常都是“实验因素”; • 动物品种、动物来源、体重、性别等通常都是“非实验因素”。
如何理解“因素与水平” • 在16℃条件下考察去甲肾上腺素 • (浓度为1×10-9)对兔肺动脉收 • 缩压的影响。 • 问:在上面的表述中共涉及到几个 • 实验因素?每个因素有几个水 • 平?
因素与水平 • 因素是特定实验条件的总称,水平是其具体的表现。 • 仅当实验条件有两种或两种以上的具体表现时,在统计学上才称其为“因素”,而具体表现称为“水平”。 • 如:温度:16、30( ℃ ) • 剂量:2、4、6、8(mmol/L)
《松球对慢性气管炎的疗效》 • (1)空白对照组 • (2)“松球+麻黄+地龙”组 • 不妥之处何在?
分析 • “麻黄和地龙”都是中药,且对慢性支气管炎有一定的作用; • 即使“松球+麻黄和地龙”的疗效优于单纯空白对照组,岂能将功劳完全归功于“松球”?
释疑 (1)空白对照组; (2)单用松球组; (3)“麻黄+地龙”组; (4)“松球+麻黄+地龙”组。 这叫什么实验设计?
这是两因素析因设计 设A代表“松球用否”;B代表“(麻黄+地龙)用否”,则前面设计为: ---------------------------------------- A用否 B用否:不用 用 ---------------------------------------- 不用 (1) (3) 用 (2) (4) ----------------------------------------
实验设计的基本原则 • 重复 • 随机 • 对照 • 均衡
重复原则的作用 • 重复的三层含义: • 重复实验、重复测量、重复取样 • 重复的作用: • 掷硬币实验10次与10000次的结果可知: • 其作用就是“让随机变量的变化规律性更好地显露出来”。
《重量法测定血苯-白蛋白加合物的初步研究》 • 用气-质联仪(GC-MS)测定血液中的苯-白蛋白加合物,由于采用昂贵的仪器和同位素内标物,在一般实验室难以进行。本研究采用重量法测定,并与GC-MS法进行比较,同一标样用GC-MS法测3次,重量法测7次, 分别为1.9±0.1(mg/ml)和2.0±0.1(mg/ml),经t检验,平均值之间差异无显著性(P>0.05)。
分析 • 作者的目的是检测两种方法测量结果是否具有一致性。但实际检测时,仅做了一个标样,并且仅对这一个标样进行了重复测量,表面上有若干个数据,但实际上这些数据均来自于一个样品,并不能很好地代表不同浓度样品所在的总体,这样做仅能得出对这一标样的多次重复测量结果的准确性高低,并不能推论到一般样品中去。
释疑 • 应根据专业知识,合理确定标样的浓度范围,选定多个标样用目前被公认的测定方法和重量法同时进行测量,并选用合适的统计分析方法(如直线回归分析,其零假设与备择假设分别为总体斜率β=1与β≠1,而不应采用t检验),这样才能推论两种方法测量结果是否具有一致性。
随机原则的作用 • 随机≠ 随便 • 随机:总体中任何一个个体都有同等 的机会被抽出,进入样本; 样本中任何一个个体都有同等的 机会被抽出,进入任何某一组。 • 随机的作用:尽可能消除人为因素的干扰 和影响,提高样本的代表性。 • 从笼子中抓老鼠分组是随机原则的应用吗?
对照原则的作用 • 对照的作用: 建立比较的基础,即设置参照物。 • 对照的形式: 空白对照、标准对照、 相互对照、实验对照、 历史或中外对照
《银屑病发病与血型的关系探讨》 • 原作者对64例银屑病患者进行血型观察,其中O型血30例,A型血17例,B型血17例,AB型血0例。没有进行统计分析,仅凭数字大小,认为银屑病的发病与血型有明显的关系,同时也证实了遗传致病的决定意义。
分析 • 根据常识,正常人群中的血型构成存在较大差异,AB型所占的比例就是最少,作者没有对正常人群的血型分布情况进行调查,仅根据自己调查的银屑病人血型构成相差悬殊的情况,并不能说明银屑病人与正常人群在血型构成上存在差异,作出结论也是没有说服力的。
释疑 • 正确的做法应建立正常对照组,调查正常人群的血型分布情况,并与银屑病人的血型分布情况进行比较,如果存在差异,则为银屑病的发病因素提供了某种线索,如果没有差异,则可以认为银屑病发病与血型构成没有关系。
均衡原则的作用 • 均衡的含义: 各种非实验因素对各组的影响是均等的。 • 均衡的作用: 提高组间可比性,增大结论可信度。
《臀部注射硬结物理治疗比较》 • 臀部注射硬结117例,男62例,女55例,年龄18个月~68岁,病程1周~15年,注射硬结1cm×1cm~5cm×7cm。超声碘离子透入组30例,采用洛阳产超声药物透入机,于肌注硬结处涂以10%碘化钾软膏。音频电组55例,采用太仓产音频电疗机。红外线组32例,采用落地式红外线治疗灯,局部照射。以上各组均每日治疗一次,15次为一疗程。疗效标准:痊愈:疼痛、硬结均消失;显效:疼痛明显消失,硬结缩小1/2以上;有效:疼痛减轻,硬结软化缩小不足1/2;无效:无明显改善(见下表)。
分析 • 根据病理常识,硬结预后与年龄、病程及硬结本身的大小都有很大关系(年龄小、病程短、硬结小,预后相对好)。从资料可以看出,研究对象年龄跨度大(从18个月到68岁),病程差距大(从1周到15年),并且硬结的大小也存在较大的差距(1cm×1cm~5cm×7cm)。原作者对采取何种方法使重要的非实验因素在各组间达到均衡未作任何说明,只是一味地将三组拿来直接进行比较,如果均衡性原则掌握得不好,则有可能结论的可靠性不高甚至得出错误的结论。
释疑 • 在进行试验之前,最好进行完善的试验设计,明确所要考察的实验因素,受试对象,所观察的指标,以及对试验结果可能产生影响的重要的非实验因素,务必使各重要的非实验因素在各组间尽量达到均衡一致,这样得出的结论才具有较强的可信性和说服力。本例可根据情况按“不平衡指数最小的分配原则”来安排实验,将重要的非实验因素划分成多个水平,将每个新就诊的患者加入各个治疗组,计算出在各种情形下的不平衡指数,找出最小的不平衡指数所在的组,说明新就诊的患者如果加入此组,各重要的非实验因素在各组间的均衡性最好。
提高均衡性的对策 • (1)研究者自身应有丰富的专业知识和统计学知识 • (2)请同行专家审阅实验设计方案 • (3)请统计学专业人员提建议
2.2资料的表达与描述中常见的统计学错误 • 编制统计表时纵、横标目颠倒,同一表中表达不同性质的内容,表中数据含义表达不清; • 绘制统计图时资料类型与所选用的统计图不匹配,坐标轴上所标的刻度值违背数学原则; • 使用均数±标准差(误)的形式表达一切定量资料的集中趋势和离散趋势; • 运用相对数时,分母过小,将构成比与百分率混用。
《准分子激光原位角膜磨镶术治疗近视散光的初步研究》 • 原作者将B、C两组患者手术前后散光轴夹角度数的变化绘制如下。 图 B、C两组患者手术前、后散光轴夹角度数的变化(原图)
分析 • 图中x轴上用等长的间隔代表不等的时间段,这样绘制线图,其折线的倾斜程度是一种假象,歪曲了事实。
释疑 • 统计图坐标轴上的刻度应符合数学原则,即对于算术尺度来说,等长的间隔应代表相等的数量。 • 修改见下图(右),可见散光轴夹角度数术后1周上升很快,以后下降较缓。
《600例小儿烧伤休克期治疗分析》 • 原作者在文中指出:“600例烧伤患儿,210例早期有休克症状,其中3岁以下者110例,占52%,3岁以上者100例,占48%,年龄越小,休克发生率越高。”。
分析 • “比”和“率”都是相对指标,其公式的基本形式相同,都是由两个绝对数之商乘以100%而得。但二者有区别,构成比是反映一事物内部各组成部分在总量中所占的比重,是构成相对数;而率则表示在一定时间和范围内,某现象的发生次数与该现象可能发生的总数之比,是强度相对数。文中两个相对数均为构成比,而作者却进一步解释为“年龄越小,休克发生率越高”,把“构成比”当成“百分率”,是不妥的。
释疑 • 600例烧伤患儿,210例早期有休克症状,则休克的发生率为35%,此指标反映休克的发生强度,属于百分率。210名休克患儿中,3岁以下者110例,占52%,3岁以上者100例,占48%,反映了事物各个组成部分所占的比重,应为构成比,欲求各个年龄段的休克发生率,应先算出各个年龄段的患儿总数,然后拿各年龄段的休克人数除以患儿总数,才是各年龄段的休克发生率。
《猪活体脑片钙离子荧光强度的测定及对停循环后脑缺血损伤的评价》 • 原文中资料的表达见下表。
分析 • “平均数±标准差”是用来表达呈正态分布的资料,说明其数据分布的集中趋势和离散趋势。从表中数据可以看出,大部分标准差大于平均数,有的甚至是平均数的4倍,基本上可以认为此资料服从偏态分布,不适合用正态分布法说明此资料的集中趋势和离散趋势。
释疑 • 描述偏态分布资料的集中趋势应该选用中位数,描述其分散趋势应该选用四分位数间距,其形式为“M(QR)”,M代表中位数,QR代表四分位数间距,QR= Q3 –Q1,由第3四分位数减第1四分位数得来。由于没有原始数据,故只能解释一下。
2.3定量资料分析中常见的统计学错误 • 误判资料的性质而采用定性资料的分析方法; • 忽视资料的前提条件而盲目采用参数检验; • 不能正确地识别资料的设计类型,用t检验或单因素k(k≥3)水平设计资料的方差分析处理一切定量资料。
《美喘清与博利康尼治疗支气管哮喘各40例临床疗效与副作用比较》 • 原作者选择80例哮喘病人随机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间,见下表。所得结果用χ2检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异有显著性(P<0.05)。
分析 • 严格地说,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质上讲应为定量资料,上表只是为了表达的方便列出不同时间点上的频数分布,并不代表此资料中的结果变量就为定性资料。原作者采用一般χ2检验对资料进行处理,χ2检验所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不能得出两组起效时间之间的差别具有显著性意义。
释疑 • 最好将此资料中的发生疗效的时间还原为原始值,然后按成组设计定量资料进行统计学分析,如果每组发生疗效的时间符合正态分布且两组发生疗效的时间满足方差齐性,则可以进行成组设计资料的t检验,如果不满足t检验的前提条件,则可采用非参数统计,如成组设计两样本比较的秩和检验。如果每位患者药物起效时间不像表所示的那样精确,只是一个时间段(如:0~≤0.5,>0.5~≤1,……,>48~≤72),则可以按结果变量为有序变量的单向有序列联表资料所对应的统计分析方法如秩和检验,Ridit分析等进行处理,当然这样做通常会损失一部分信息,降低了检验效能。
《血清肿瘤标志在结直肠癌诊断中的作用》 • 为研究CEA、CA19-9、CA72-4和CA242四项肿瘤标志在患者手术前、手术后及转移复发有无差异,分别检测了58名手术前患者,30名手术后患者及19名转移复发患者,测量其四项指标,并进行t检验,结果见下表。