投稿问答最小化  关闭

万维书刊APP下载

【文献译读87】恳请在meta分析中常规地提出预测区间

2023/4/4 14:28:03  阅读:198 发布者:

文献分享会

摘要

目的:评估不同研究的效应强度的变化是meta分析的一个关键特征。这种变异性通过τ2I2等指标反映出来,但其临床解释并不简单。预测区间则不那么复杂:它显示了类似研究中真实效果的预期范围。我们旨在展示在meta分析中常规报告预测区间的优势。

设计:我们展示了预测区间如何帮助理解干预措施是否有效的不确定性。为了评估使用该区间解释结果的意义,我们选择了2009-2013Cochrane系统回顾问题数据库中的第一个每项干预的meta分析,其结果为二分法(n=2009)或连续法(n=1254),并为其生成95%的预测区间。

结果:在Cochrane数据库2009-2013年的479个具有统计学意义(随机效应P<0.05)的meta分析中,有72.4%具有异质性(I2>0),95%的预测区间表明干预效果可能为空,甚至是反方向的。在这479meta分析中的20.3%,预测区间显示效果可能与meta分析的点估计完全相反。我们还展示了预测区间如何用于计算新试验显示负效应的概率,并改进新试验的功率计算。

结论:预测区间反映了不同环境下治疗效果的变化,包括对未来病人的预期效果,如临床医生有兴趣治疗的病人。预测区间应常规报告,以便在meta分析中进行更多的信息推断。

本研究的优势和局限性

1)在许多meta分析中,效果强度有很大的差异。

2)预测区间通过估计在未来环境中可预期的真实治疗效果,有助于对异质性的临床解释。

3)在异质性的情况下,预测区间将显示比CI更广泛的预期治疗效果,因此可能导致不同的结论。这种情况发生在Cochrane系统回顾数据库中超过70%的具有异质性的统计学分析中。在这些meta分析中,有20%以上没有排除完全相反的效应。

4)预测区间应常规报告,以便在meta分析中进行更有信息量的推论。

5)其局限性在于,预测区间的计算和推断是基于正态性假设,而这很难保证。此外,如果对总结效应和研究间异质性的估计不精确,例如,如果它们只基于少数小型研究,那么该区间将不精确。基于预测区间的推断只对与meta分析所基于的环境相似(可交换)的环境有效。

引言

由于研究人群、干预措施、随访时间或其他因素(如发表偏倚)的不同,干预措施在不同的研究中可能具有异质性的效果。通常情况下,研究间异质性的一些衡量标准,如τ2或不一致性衡量标准I2也被提出。我们在本文中的目的是说明在meta分析中常规获取和报告预测区间的潜在优势,因为其临床意义更为直接。与τ2I2相比,预测区间以与原始效应大小衡量标准相同的指标来显示异质性。除了汇总估计值和CI之外,报告预测区间将说明在未来的环境中可以预期哪个范围的真实效应。我们描述了它的优点,并提供了工作实例来说明如何计算它。

方法

对异质性的解释

治疗效果的大小在研究之间的差异是不能被忽视的。meta分析的主要优点之一甚至可能是它揭示了不同研究中效果的变化。因此,将meta分析的结果总结为一个单一的总结值会牺牲潜在的信息性变化。I2的临床解释是模糊的:高I2不一定意味着研究效果在很大范围内是分散的,而低I2可能对应着高分散性,因为I2取决于所纳入研究的样本量。对于非常大的(高度精确的)研究,即使效应量的微小差异也可能导致高I2,而对于小的(不精确的)研究,非常不同的治疗效果可能产生0I2。例如,我们可以估计效果大小与τ的比率,这可以表达治疗效果与各研究间效果的SD相比大多少倍。另一种表达效应大小变化的常用方法是CI,例如95%CI。随机效应模型中的CI包含汇总治疗效果的高概率值。然而,它并不能表达在其他病人身上可能出现的治疗效果范围,例如在下一项研究中或在临床医生希望在其诊所治疗的病人身上。

预测区间

预测区间并不经常报道,但更有洞察力。预测区间总是在与原始结果相同的尺度上显示异质性,与τ(例如,在ORs的情况下)、τ2I2相反。95%的预测区间估计的是未来可能进行的95%的类似(可交换)研究的真实效果预期。例如,在一项关于成人久坐时间与糖尿病、心血管疾病和死亡关系的meta分析中,CIs被认为不能充分代表不同的研究人群。因此,也报告了预测区间。如果没有研究间的异质性,预测区间与各自的CI相吻合。然而,在存在异质性的情况下,预测区间比CI覆盖的范围更广。因此,在有统计学意义的效应的情况下(95%CI的所有数值都在无效值的同一侧),相应的95%预测区间可能表明数值可能在无效值的两边。这意味着,在某些情况下,基于CI的结论将不成立。在同样的框架下,我们也可以计算出在下一个研究中,真实效应是有害的(在无效值的另一边)的概率。表1介绍了研究间异质性的测量方法。

例子:外用类固醇治疗鼻息肉

2012年对使用外用类固醇治疗患有鼻息肉的慢性鼻炎进行了综述,该综述基于7项随机研究,结果是与安慰剂相比,类固醇的总体症状评分下降幅度较大。I273.9%95%CI44.2%87.8%),这可以被认为是实质性的异质性,估计的τ20.148。尽管有这些数字,但很难评估这种异质性对未来环境可能产生的临床后果。

为了估计SMD的预测区间,我们需要SMD的点估计值、其SE和估计的τ2。我们从SMD95%CI中得出SE(见在线补充附录公式1),结果是SE0.227。我们可以计算出预测区间SD(PI)SD为√(0.148+0.2272),95%预测区间的下限和上限为-0.51±2.45×SD(PI)2.45这个值是由t1-0.05/2,6分布得出的。可以通过使用不同的t值来计算不同覆盖率的预测区间,例如,t1-0.20/2,680%的预测区间(见在线补充附录公式1)。

由此得出的预测区间从-1.600.58不等,可以解释为类似研究中预期的95%真实SMDs范围。预测区间包含低于零的数值,这相当于与安慰剂相比,使用类固醇后症状评分最多下降1.6 SD。但它也包含高于零的数值,这意味着在某些情况下,类固醇可能没有表现出效果,甚至是有害的效果(SMD>0),(95%)最坏的情况是SMD增加0.58。因此,新研究中的效果甚至可能与meta分析的汇总点估计完全相反,即可能出现0.51的增加而不是-0.51的减少。根据6个自由度的t分布,在新的研究中,类固醇的真实效果为空或更高的估计概率等于14.7%(见在线补充附录公式2)。

Cochrane数据库

为了调查基于预测区间和CI的结论有多大的差异,我们在英国Cochrane编辑部慷慨提供的2009-2013Cochrane系统回顾问题数据库的统计学意义上的meta分析(通过随机效应计算P<0.05)中进行了评估。为了避免选择上的主观性,我们在数据和分析部分使用了第一个具有二分法或连续结果并基于至少两项研究的meta分析,当这些研究在原始回顾中也被合并时,因为我们希望尽可能精确地反映现状。详细情况可以在另一篇论文中找到。简而言之,在总共3263meta分析中,有920个具有统计学意义。479项估计I2>0441项估计I2=0

计算方法

我们使用Hartung-Knapp/Sidik-Jonkman16HKSJ)随机效应meta分析方法与τ2的经验Bayes估计相结合。我们对所有的meta分析进行了τ2的估计,即使作者最初进行的是固定效应分析。预测区间是根据在线补充附录公式1计算的。) 我们根据研究数量(2-6个研究或>6个)和异质性(I2<30%30%60%>60%,根据Cochrane手册13所述,I230%60%之间相当于中度异质性)对具有异质性(τ2>0)的统计意义的meta分析进行分类。对于异质性估计为零的重要meta分析,我们通过假设I220%来评估可能较低但不为零的异质性的影响,使用在线补充附录公式3计算预测区间。) 组间分类结果的比较采用χ2检验。我们使用R软件 V.3.1.2R软件包metafor17 V.1.9-5meta V.4.1-0

结果

总的来说,在479I2>0的有统计学意义的meta分析中,有132个(27.6%)的95%CI95%预测区间都排除了无效效应(表2)。因此,几乎四分之三(34772.4%)的预测区间包含了无效效应。这意味着,对于这些比较而言,一些患者群体可能会出现空效应或相反方向的效应,也就是说,一种治疗方法可能比比较者更有害,即使点估计表明是有益的(或者相反)。毫不奇怪,低异质性的重要meta分析比高异质性的meta分析更经常有排除无效的预测区间。有连续结果的meta分析(80.4%)比有二分结果的meta分析(65.8%P<0.001)含有空效应的预测区间的百分比略高,但基于6个以上研究的meta分析(74.1%)与最多6个研究的meta分析(69.1%P=0.25)没有明显区别。

347个预测区间包含无效或相反效应的meta分析中,199个(57.3%)至少有一个研究具有相反效应。这种情况在有6个以上研究的meta分析中(181/23577.0%)比那些基于最多6个研究的meta分析(18/10217.6%)更经常发生。特别是在研究少、异质性大的meta分析中,预测区间比研究结果的范围宽。而在基于许多研究且估计异质性较低的meta分析中,情况正好相反(即预测区间较小)。具有二分法和连续法结果的meta分析的结果没有明显的不同。

含有相反效应的预测区间

如果预测区间仅仅包括无效效应,这可能没有那么令人担心,因为它包含了与集合总结效应完全相反的效应,例如,如果它包含了0.5OR,而meta分析总结估计是2OR,或者如果它包含了SMD-0.7,而总结估计是0.7。在479I2>0的重要meta分析中,97个(20.3%)的预测区间含有相反的效果。这一比例在连续结果的meta分析中(65/21929.7%)高于二分结果的meta分析(32/26012.3%P<0.001)。在有六个以上主要研究的meta分析中(连续或二分结果的meta分析分别为57/13941.0%30/17820.3%),它也比那些基于最多六个研究的meta分析(8/8010.0%2/822.4%;分别为p<0.001p=0.001)更经常发生。

估计I2=0meta分析

然而,关于异质性的确切数量通常有很大的不确定性,这表现在I2值的95%CI非常大。真正的I2和τ不太可能完全为0,尽管低值是可能的。为了评估441个估计I2=0且有统计学意义的Cochrane meta分析中可能存在的低但非零的异质性的影响,我们将I2=20%(表明研究间异质性低)。在这种假设下,在这441meta分析中的329个(74.6%),95%的预测区间将跨越空值的两边(表2),对于具有二分法(74.7%)或连续法(74.4%)结果的meta分析也是如此。这是一种敏感性分析,可以用来观察看似没有可检测的异质性的meta分析的推论是否会受到哪怕是少量异质性的影响。

讨论和展望

meta分析中,CI对临床决策是不充分的,因为它只总结了平均研究的平均效果。预测区间的信息量更大,因为它显示了与危害和临床获益阈值有关的可能效果范围。虽然我们关注的是分离阈值为空的情况,但也可以考虑不同的阈值。例如,在预测区间框架中,可以计算效果大于B的概率,其中B可能是一个有临床意义的效果(如果治疗效益小于B,那么就觉得不值得)。一个狭窄的预测区间完全位于临床相关阈值的有益一侧,可以增加对干预的信心。一个宽的预测区间可能表明存在治疗效果不理想甚至可能有害的情况。在Cochrane数据库中超过70%的具有统计学意义的meta分析中,有一些估计或假设的研究间异质性,预测区间越过了无效果阈值,表明存在这些治疗没有效果或甚至有相反效果的情况。在20.3%meta分析中,预测区间甚至包含了与总结估计相反的效果,例如,当总结点估计为2OR时,OR0.5。这种情况最常发生在具有连续结果的meta分析中,可能是因为异质性在许多以连续尺度评估结果的课题中更为突出;在全套3263meta分析中也观察到连续结果的异质性更高。在基于6个以上研究的meta分析中,异质性也略为常见,这可能是因为这类meta分析有更大的力量来检测较小的效应,这意味着相反的效应也会更小。

GrahamMoran评估了2002年至2010年期间发表的72个有二分法结果的危重病人的meta分析的预测区间。他们发现有意义的meta分析比例较高(50/7269.4%),而我们这组有OR结果的meta分析中只有28.5%572/2009)。这种差异可能是由于出版偏倚、他们的样本中初级研究的数量较多(中位数为9,而我们的样本中为415)以及他们使用的DerSimonian-Laird方法可能导致过多的统计学意义的结果,而我们使用的是HKSJ方法。在他们的50个有意义的meta分析中,有32个(64.0%95%的预测区间包括空值,与我们的数据集中的65.8%相似。在他们的50meta分析中,有7个(14.0%)表明疗效或危害完全逆转的概率很高,与我们的meta分析中预测区间包含相反效果的12.3%相似,尽管他们对可能的“危害”使用了不同的定义,而且他们没有提及他们的重要meta分析中是否存在研究间的正异质性。

如果我们可以假设效应是正态分布的,τ2是已知的且在不同研究中是稳定的,那么计算预测区间就很简单了。然而,我们应该意识到,预测区间取决于这一假设以及估计的τ2和研究效果的精确性,如果meta分析中的研究数量较少,预测区间将是不精确的。如果研究数量多,估计值将更加精确,而且可以根据经验评估τ2分布的正态性。最后要注意的是,预测区间所传达的不确定性涉及到未来研究与已经完成的研究相似(可交换)程度的不确定性,但这适用于meta分析的所有推论。如果未来的研究评估的病人和环境与过去的研究评估的完全不同,这种可交换性是值得怀疑的,不确定性可能比预测区间所传达的更加突出。在实践中,如果认为医生治疗的病人与过去所有研究中见到的病人有很大的不同,那么即使是预测区间也不能告诉我们对这些病人可能有什么预期。

未来研究的效能计算

Meta分析结果也可用于新研究的功率计算。然而,新研究中的预期真实效应不一定等于meta分析的点估计值:它可以是预测区间中的任何一个值。在异质性的情况下,新研究中出现统计学意义上的结果的概率可能与基于点估计的80%的表面力量有很大的不同。后者将过于乐观,因为权力函数是不对称的。如果真正的研究效果大于点估计值,则有意义的研究的实际概率会更高,最高可达100%,但如果效果较小,则概率可能会大幅下降,甚至在无效效果的情况下降至5%或更低。因此,在异质性的情况下,一个重要的新研究的预期概率将低于80%(在线补充附录公式4)。例如,如果预测区间显示30%的未来研究可能有真正的空效应或负效应,那么有意义的新研究的概率就不可能远远大于70%。应增加样本量以弥补这一损失,另见Roloff等人。

综上所述,预测区间反映了真实治疗效果在不同环境下的变化,包括在未来的病人(如临床医生有兴趣治疗的病人)中会有什么效果。因此,除了总结效果及其CI外,还应该常规报告,并将其作为解释证据的主要工具,以使临床决策更加明智。

转自:“一起学科研”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com