投稿问答最小化  关闭

万维书刊APP下载

【文献译读89】进行伞状综述的十个简单规则

2023/4/4 14:30:22  阅读:345 发布者:

文献分享会

引言

医学知识在传统上与人类文化的其他领域不同,它具有渐进的性质,有明确的标准或准则来确定改进和进步。基于证据的综合方法传统上被认为符合这些标准。它们可以被认为是医学知识的基本单位,并允许对几个通常是对比性的研究结果进行理解,这对推进临床知识的发展至关重要。事实上,临床医生在访问国际数据库(如PubMed)以寻找关于某个确定主题的最佳证据时,可能很快就会被太多的研究结果所淹没,这些研究结果往往是相互矛盾的,并且不能相互复制。一些作者认为,生物医学科学存在严重的复制危机,以至于在科学上,复制变得与发现同样重要,甚至比发现更重要。尽管已经进行了几十年的研究,但由于已发表的研究结果相互矛盾,并受到几种偏倚的影响,所以结果并不确定。系统回顾和meta分析的目的是综合研究结果并调查偏倚。然而,随着综述和meta分析的数量增加,临床医生也可能对过多的综述感到不知所措。

为了克服这样的知识差距,人们开发了总括性回顾。它们是对以前发表的系统回顾或meta分析的回顾,包括重复meta分析,对所有因素采用统一的方法,以便进行比较。毫不奇怪,伞状综述在生物医学文献中的影响越来越大。近几年来,这种类型的研究激增,从经验上证实了这一点。事实上,通过在Web of Knowledge(截至201841日)上发表的文章标题中搜索 "伞状综述",我们发现过去十年中发表的伞状综述数量大幅增加,详见图2。通过我们的文献检索所发现的伞状综述是在调查一部分广泛的医学分支(图3)。此外,最近还发表了几份即将发表的伞状综述的协议,证实了这种指数级的趋势。

然而,关于如何进行或报告伞状综述的指导相对有限。本稿件通过提供在医学领域进行良好的伞状综述的实用提示来解决这一问题。我们没有详尽地介绍伞状综述的方法论基础,而只是强调了我们认为对进行强有力的伞状综述来说至关重要的10个关键点。作为参考例子,我们将使用我们小组最近完成的关于精神病性障碍的风险和保护因素的总括回顾。

方法

对文献进行教育性和批判性(非系统性)回顾,重点关注进行和报告强有力的总括回顾所需的关键实践问题。作者选择了说明性的伞状综述,以突出关键的方法学发现。在结果中,我们提出了10个简单的关键点,伞状综述的作者在计划和进行医学领域的伞状综述时应该仔细处理。

结果

确保伞状综述是真正需要的

在医学领域的知识中,决定开发一个新的伞状综述应该受到几个因素的刺激,例如,感兴趣的话题可能是非常有争议的,或者它可能受到潜在偏倚的影响,而这些偏倚还没有被系统地调查过。作者可以在现有文献中探讨这些问题。例如,他们可能要调查并确定一些关于同一主题的meta分析的例子,这些例子提出了对比性的结论。第二,应事先确定解决不确定性和推进临床知识之间的明确联系,并承认这是进行总括回顾的有力理由。例如,在我们以前的工作中,我们推测,通过澄清风险或保护因素与精神病性障碍之间的关联证据,我们可以提高识别那些有患精神病风险的人的能力。第三,在上述两点令人满意的前提下,必须检查是否有足够的meta分析来处理一个确定的主题。较大的数据库可以提高统计效能,从而提高估计的准确性和结果的可解释性。此外,它们还可能反映出一个对临床实践有更广泛兴趣和影响的主题。当考虑到大量产生无用的证据综合研究时,这些考虑是特别相关的,这些研究是多余的,没有必要的,而且是针对临床上不相关的结果。

预先指定方案

与其他任何证据综合方法一样,在开始工作之前必须准备一份研究方案,并将其上传到国际数据库,如PROSPEROhttps://www.crd.york.ac.uk/PROSPERO/)。作者也可以在开放性期刊上发表协议,因为这对随机对照试验来说是很常见的。方案应明确规定查阅文献和提取数据的方法以及统计分析计划。重要的是,应预先规定具体的纳入和排除标准。例如,我们的总括回顾13的纳入标准是:(a)系统回顾或对单个观察性研究(病例对照、队列、横断面和生态学研究)的meta分析,研究风险或保护性因素与精神病性障碍之间的关系;(b)考虑国际疾病分类(ICD)或精神疾病诊断与统计手册(DSM)定义的任何既定的非器质性精神病性障碍诊断的研究;(c)包括每个研究定义的非精神病性健康对照组,以及(d)报告足够数据以进行分析的研究。同样,文献检索的报告也应遵守《系统综述和meta分析的首选报告项目》的建议,以及根据所纳入研究的性质而制定的其他具体指南(例如,如果是观察性研究,应遵守《流行病学观察性研究的meta分析》指南)。在证据综合研究中,传统上需要对纳入的研究进行质量评估。在没有具体的总括性回顾质量评估指南的情况下,可以使用评估系统性回顾的测量工具,这是一个有效的工具。

明确界定所关注的变量

传统上,进行总括性回顾是为了衡量某些因素与确定的临床结果之间的关联。因此,进行良好的总括性回顾的第一个相关点是定义一致和可靠的因素和要分析的结果。

定义感兴趣的因素(如风险因素或生物标志物)的类型可能特别具有挑战性。例如,在我们的综述中,我们发现童年创伤被认为是精神病的一个常见风险因素,但现有文献缺乏标准的操作性。我们的实用方法是按照每个meta分析或系统回顾的定义来定义这些因素。另一个问题涉及到分析者是否应该以及如何将类似的因素分组。例如,在我们的综述中,我们想知道是否将第一代移民和第二代移民的精神病风险因素合并为一个独特的 "移民 "类别。然而,这将引入新定义的风险因素类别,而这些风险因素在基础文献中是不存在的。我们的解决办法是,如果meta分析或系统综述对类似因素进行了单独考虑和分析,就不要将其合并。同样,如果meta分析或系统综述将其作为一个整体来考虑(例如,儿童时期的创伤),那么不将这些类别分成子组(例如,儿童时期的性虐待、情感忽视、身体虐待)可能是重要的。将分析限制在每个单独的meta分析或系统综述最初引入的因素上,可以减轻引入文献中原本不存在的新定义因素的风险。这样的方法也是有利的,可以最大限度地减少通过创造大的和未发表的因素来人为地夸大样本量的风险,从而使证据的层次分类产生偏差。额外的问题可能是,meta分析或系统回顾可以报告两种结果,即,跨类别的集合和根据特定的亚组划分。在这种情况下,重要的是要事先确定要使用哪种结果。汇总的结果可能是首选,因为它们通常包括更大的样本量。 最后,可能会有两个针对同一因素的meta分析或系统回顾,或包括有重叠的个别研究。在我们之前的总括回顾中,我们选择了拥有最大数据库和最新数据库的meta分析或系统回顾。

这个领域的一个附带挑战可能与分析员应排除的因素类型有关。例如,在我们以前的综述中,我们决定只关注精神病的风险和保护因素,而不关注生物标志物。然而,在缺乏明确的精神病发病机制的情况下,在精神病发病前收集的生物标志物与风险和保护因素之间的界限并不总是很清楚。为了解决这个问题,我们再次采用了一种务实的方法,即采用总评中包括的每篇文章所提供的风险和保护因素与生物标志物的定义。还有一点是,如果纳入系统综述,其中一些综述可能没有进行特定因素的定量数据。

额外的挑战是,各个meta分析或系统回顾可能对这些结果有类似但不完全的定义。例如,我们打算只调查由标准的国际有效诊断手册(如ICDDSM)定义的精神病性疾病。我们发现,一些表面上是在调查精神病性障碍的meta分析,实际上也包括了测量这些手册中没有正式编码的精神病性症状的研究。为了克服这个问题,我们决定对每个符合条件的meta分析或系统综述中所包括的每项研究,都要核实用于审查文献的相同纳入和排除标准(例如,纳入DSMICD精神病性障碍)。这样一个过程是非常耗时的,分析者应该在早期计划阶段考虑到这一点,确保有足够的资源。总括回顾的作者也可以完全依赖系统回顾和meta分析中提供的信息,但在这种情况下,分析人员应在文本中明确承认其潜在的局限性。或者,他们可以依靠系统回顾和meta分析,对证据水平较高的因素进行预选,然后对这些(少得多的)因素的每项研究进行数据核实。

估计一个共同的效应量

系统综述和meta分析使用不同的效应量测量方法,这取决于它们所综述的研究的设计和分析方法。例如,病例对照研究的meta分析可能使用标准化的平均差异,如Hedge's g来比较连续变量,并使用奇数比(ORs)来比较二元变量。同样,对队列研究的meta分析,比较暴露者和非暴露者之间的发病率,可以使用发病率的比率,如发病率比率(IRR)。此外,还可以采用其他的效果大小衡量标准。使用这些不同的效果大小衡量标准是丰富的,因为每一种都适合于一种类型的研究,因此我们建议在总评中也使用它们。例如,危险比(HR)可能非常适用于总结生存分析,而在横断面研究中却很难解释,最终使读者无法轻松地窥见当前的证据。

然而,总括性研究的主要目的之一也是为了能够比较所有被调查因素的效应大小,而对所有因素使用一个共同的效应大小显然使这种比较变得简单明了。例如,在我们以前对精神病的风险和保护因素进行的总评中,我们发现父母沟通偏差(含糊不清、支离破碎和相互矛盾的家庭内部沟通)的效应大小为Hedge's g=1.35,而大量使用大麻的效应大小为OR=5.17。为了进行直接的比较,我们将所有的效应大小转换为OR,而父母沟通偏差的等效OR11.55。因此,报告每个因素的等效OR,读者可以直接比较这些因素,并得出结论:父母沟通偏差的影响大小大大超过严重使用大麻的影响大小。为了进一步促进因素的比较,分析人员甚至可以强迫所有等效OR大于1(即倒置任何OR<1)。例如,在我们以前的总评中,我们发现自我指导的等效OR0.17。这一OR的倒置为5.72,读者可以直接将其与其他等效OR>1进行比较。

将效应量准确转换为等效的OR可能并不总是可能的,因为效应大小的衡量标准可能本身就不同,而且计算时可能需要无法获得的数据。例如,为了将IRR转换为OR,分析人员应首先将IRR转换为风险比(RR),然后将RR转换为OR。然而,IRRRR有一个重要的区别:IRR考虑了研究人员可以跟踪每个人的时间,而RR只考虑样本的初始大小。此外,即使分析人员可以将IRR转换为RR,但如果不知道非暴露者的发病率,他们也不能将RR转换为OR,而论文可能没有报告。

幸运的是,近似的转换是相对简单的(表1)。一方面,分析人员可以假设,只要发病率不是太大,HRsIRRsRRsORs就大致相等。同样,他们也可以假设,只要患者和对照组的变异性不太大,样本量不太小,Cohen's dGlass'Δ和Hedge's g就大致相等。另一方面,分析家可以用标准公式将Hedge's g转换为等效的OR。对于其他测量方法,如风险差异、平均值之比或平均差异,分析家需要一些一般的估计(表1)。在任何情况下,这种近似都是可以接受的,因为等效OR的唯一目的是提供一个直观的数字,以便于比较不同因素的效应大小。

报告异质性和潜在偏倚

与单项meta分析一样,总评应该研究并报告每项meta分析中所包含的研究的异质性和研究中的潜在偏倚,以显示证据的更完整情况。独立于效应大小和P值,当存在较大的异质性以及存在潜在的报告或超额显著性偏倚时,效应(例如,风险因素)的证据水平较低。研究间存在较大的异质性可能表明,例如,有两组研究调查了两组不同的病人,而对这两组病人进行单一的meta分析的结果可能不代表其中任何一组。另一方面,潜在报告偏倚的存在,可能意味着研究只有在发现一种类型的结果时才会及时发表在索引期刊上,例如,如果发现某种心理疗法有效。当然,如果meta分析只包括这些研究,结果将是该心理疗法有效,即使它没有效果。分析师可以通过一些工具来探索影响最小的研究的报告偏差,如漏斗图、Egger和类似的测试以及修剪和填充方法。最后,潜在的超额显著性偏差的存在将意味着具有统计学意义的研究数量可疑,这可能与报告偏差和其他问题有关,如数据疏通。

对证据进行分层

对我们文献检索中发现的伞状综述进行更详细的分析,发现其中一些综述,涉及到几个临床医学领域(神经病学、肿瘤学、营养医学、内科学、精神病学、儿科学、皮肤病学和神经外科),另外还使用分类方法对证据进行分层。这种分类是通过严格的标准获得的,等于或类似于下面列出的标准:

1)有说服力的(I类),当病例数>1000P<10-6I 2<50%95%的预测区间排除无效,没有小研究的影响和没有超额的意义偏倚;

2)高度提示性(II级),当病例数>1000P<10-6,最大的研究有统计学意义的影响,且不符合I级标准;

3)当病例数>1000p<10-3且不符合I-II类标准时,提示性(III类);

4)当p<0.05和不符合I-III类标准时,弱(IV类);

5)当p>0.05时,无意义。

我们强烈建议使用这些或类似的标准,因为它们可以对证据水平进行客观、标准化的分类。然而,分析人员不应忘记,这些标准中所使用的变量是连续的,所设定的分界点也只是分界点。例如,包括1000名患者的因子和包括1001名患者的因子之间的差异可以忽略不计,但根据标准,前者只能是IV级,而后者可能是I级。

进行(研究层面)敏感性分析

根据总括回顾的类型(例如,风险或保护因素,生物标志物等),一些敏感性分析可能会丰富最终的情况。例如,在对潜在风险和保护因素的总评中,确定关联的时间性是至关重要的,以尽量减少反向因果关系。这可以在类似于以下例子的情况下看到:许多吸烟者在患肺癌后戒烟,因此一项横断面研究可能报告说前吸烟者的肺癌发病率高于吸烟者,并错误地得出结论说戒烟导致肺癌。为了避免这种反向因果关系,研究必须解决时间性的问题,即观察到患者先患肺癌,后戒烟,而不是反过来。在总括回顾中,分析人员可以通过敏感性分析来解决时间性问题,其中只包括前瞻性研究。我们最近的总括回顾提供了一个调查关联时间性的敏感性分析的例子。

报告透明的结果

伞状综述产生了大量有趣的数据,但分析人员应充分展示这些数据,以实现主要目标之一:明确总结证据。这并不总是简单的。他们可以设计一些表格或图表,以简化的方式报告所有感兴趣的信息。例如,一种方法是包括一个表格,其中包括效应大小(及其CI)、等效OR、用于证据等级分类的特征以及由此产生的证据。该表的部分内容可以是图形化的,例如,分析人员可以选择以森林图的形式呈现等效OR。在任何情况下,读者都应该能够从表格和图中很容易知道各因素的效应大小和证据程度。表2显示了我们建议在任何总括性回顾中报告的关键统计数据的摘要。

使用适当的软件

分析师可以用通常的meta分析软件,如R'meta''metafor''metansue'包,来进行总括回顾的大部分计算工作。也就是说,我们建议meta分析软件要足够完整,以适应随机效应模型,评估研究间的异质性,估计预测区间和评估潜在的报告偏差。

然而,即使使用好的meta分析软件,分析人员仍然要为总括回顾的某些部分编写代码。一方面,一些特定的计算可能无法在标准软件中获得,如评估超额显著性偏倚所需的一些研究中的统计力量的估计。另一方面,meta分析软件的目的是进行和显示一个meta分析的结果,而一个总括性回顾可能包括数百个meta分析,为此,分析员必须将所有这些meta分析的结果作为一个综合的集合来管理和显示。例如,为了创建森林图,分析者可以写一段代码,把不同的meta分析的结果当作单个研究,然后调用meta分析软件的森林图功能(不显示集合效应)。我们正在开发新的、免费的伞状综述软件,以尽量减少这些负担。

承认其局限性

为了透明地报告证据,分析员必须充分承认总括性审查的局限性。一些局限性可能是特定的伞状审查所特有的,而另一些则是相对普遍的。其中,最重要的问题之一可能是,总括性回顾只能报告研究人员已经调查、发表和系统回顾或meta分析的内容。例如,一个因素可能具有惊人的强效,但如果很少有研究对该因素进行调查,它可能会因为涉及<1000名患者而被归类为只有IV级证据。事实上,如果该因素不是任何系统回顾或meta分析的一部分,它甚至不会被包括在总括回顾中。幸运的是,考虑到证据综合研究的大量产生,一个相关的医学知识领域也不太可能没有被任何已发表的系统回顾或meta分析所涉及。另一方面,一个总括可以包括所有已发表的研究,超出已发表的回顾所包括的研究,但这需要在总括回顾所包括的每个子领域层面上更新文献搜索。这种额外的工作将大大增加进行总括回顾所需的大量工作时间,以至于大多数总括回顾都变得不可行。此外,这可能会涉及到系统回顾或meta分析最初没有报告的新的亚群或因素的定义,使最终结果的解释更加困难。另一个问题是,使用系统方法分析将不允许对几种类型的偏见进行严格的评估。最后,一个类似的限制是,总括回顾将具有所纳入研究的大部分限制。例如,如果后者评估的是关联性而不是因果关系,那么总括性回顾将评估关联性而不是因果关系。

结论

伞状综述正在被广泛使用,成为提供医学知识中最高水平证据的一种手段。进行稳健的总括回顾需要考虑的关键点是确保它们确实需要,预先指定协议,明确定义感兴趣的变量,估计共同的效应大小,报告异质性和潜在的偏见,对证据进行分层,进行(研究水平)敏感性分析,报告透明的结果,使用适当的软件并承认其局限性。

转自:“一起学科研”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com