文献分享会
Meta分析和Meta回归结合了单一研究的数据,以检验特定的假设。由于它们提供了比单一研究更有力的证据,因此常常被高度引用,并可能直接影响临床实践。然而,Meta分析/Meta回归中的统计错误很普遍,可能会导致有缺陷的结论。在这篇文章中,我们强调了五个常见的统计错误,我们认为这些错误(1)容易被发现,(2)严重到会明显影响结果。我们首先用一个来自力量和调节研究的具体的Meta分析例子来说明这些错误及其影响。我们选择这个例子只是因为它首先引起了我们的注意。然后,我们试图通过系统地回顾20个高引用率的力量与调节的Meta分析,来量化这些错误的频率。最后,我们提出了一个检查表,以帮助作者、审稿人和编辑标记这些错误。
2 第一部分:说明性的例子
Seitz等人从15项研究中提取了数据,这些研究使用自由重量(全蹲、平行蹲或半蹲)仰卧起坐运动来测量下半身肌肉力量,以及下半身阻力训练干预前后的短跑表现。他们报告说,在下半身肌肉力量的改善和短跑成绩的改善之间有一个很大的和明显的相关性(r = - 0.77 [- 0.85 to - 0.67], p ≤ 0.001),并得出结论,下半身肌肉力量的增加积极地转移到短跑成绩。截至2022年8月,Seitz等人已被引用147次(Scopus)和284次(谷歌学术)。然而,仔细检查该研究发现了一些重要的错误,我们将在下文中介绍。正如我们将在第二部分所显示的,所发现的错误在已发表的文献中很常见,Seitz等人只是作为一个例子。
2.1 忽略离群值
离群值是一种极端的情况,似乎与其他数据有很好的分离。识别离群值没有单一的方法,它们取决于上下文;然而,一些常用的经验法则是:离平均值超过3个标准差或离中位数超过1.5倍的数值。Meta分析或Meta回归中的离群值会影响结论的有效性和稳健性。
Seitz等人的图2显示了一个明显的离群点(此处复制为图1,离群点用红色圈出)。该图显示了Hedges的效应大小,反映了组内短跑成绩的标准化改善(时间减少)和组内深蹲力量的改善。来自Wonget等人的数据点表明,短跑成绩的改善超过5个标准差,深蹲成绩的改善超过14个标准差。常识告诉我们,这样的改进是令人难以置信的大。事实上,在作为该数据点基础的研究中,下蹲成绩的14个标准差的提高将是在8周的训练中平均提高110公斤,从生物学的角度来看,这是非常不靠谱的。该数据点是错误的,我们将在下面解释。
在发现异常点后,研究人员应首先检查以确保数据点是真实的,而不是错误的。显然,如果数据点是错误的--如Seitz等人的情况--应该纠正这个错误。如果发现是真实的,那么研究人员应该分析有无离群点的数据,以衡量对结果的影响。个别研究对Meta分析结果的影响可以通过许多不同的方法(例如,Baujat图和影响诊断法),使用免费的R软件包{dmetar}进行检查。如果不采取这些步骤,会导致误导性的结果。在Seitz等人中(图1),离群值人为地抬高了估计的相关系数。
2.2 使用标准误而不是标准差所产生的误算效应大小
Meta分析经常使用包含结果测量的标准差的效应大小测量方法。然而,Meta分析人员有时会混淆标准误和标准差,并错误地从相关论文中提取标准误而非标准差。在计算标准化效应大小时,使用标准误而不是标准差会人为地抬高数值。例如,Hedges'g的方程式是。
在分母中使用标准误而不是标准差会导致Hedges'g被高估。例如,Seitz等人用标准差而不是标准差计算了Wong等人的Hedges'g值,导致了上述的异常情况。对于深蹲,他们计算了。
正确地使用标准差而不是标准误可以发现,深蹲的效应大小实际上是3.1,而不是14.1。
Seitz等人在计算其他两篇论文的效应大小时也犯了同样的错误。这些夸大的效应大小导致Seitz等人的相关系数和集合估计值被高估了,这在后面的重新分析中有所体现。
这些错误常常导致难以置信的大效应大小和过窄的效应大小置信区间(CIs),这在图表中是非常明显的,如森林图(基础研究的效应大小和CIs的可视化显示)。请注意,如果相关论文只报告了平均值的标准误,Meta分析学家可以很容易地得出标准差--将平均值的标准误差乘以n的平方根。
2.3 忽略研究内相关性
在进行Meta分析或Meta回归时,一些研究可能会贡献一个以上的效应量。这可能是因为一项研究包括多个干预组和/或每组的多个测量值。Meta分析和Meta回归的一个常见错误是忽略了这些观察结果的相关性,这可能导致CI过窄和P值被低估。
这个错误在Seitz等人中产生了很大的影响。Seitz等人在他们的Meta分析中只包括了15项研究的数据,但报告了85个效应量,并把这些效应量当作完全独立的数据来分析(例如,对85个数据点计算皮尔逊相关系数)。之所以出现85个效应大小,是因为一些研究包括一个以上的组别(如多个干预组和/或一个对照组),而且大多数研究报告了每个人的多个短跑测量值,例如,报告一个短跑试验的5米、10米和30米的时间。这些短跑测量值是高度相关的;当我们重新检查数据时,我们发现这些测量值的类内相关系数为0.96。
把相关的观察值当作独立的观察值,会导致人们低估标准误,造成人为的小P值和人为的窄CI。例如,如果一项研究报告了每个人的六个短跑指标,而这些指标几乎是完全相关的,那么把这六个指标当作独立的,实际上是把样本量扩大了六倍,从而导致大大低估了标准误差。还要考虑到,在Seitz等人的Meta分析中,一项研究贡献了85个观测值中的36个。因此,一项研究被视为代表了36项独立的研究。相关的冲刺观察在图1中是很明显的,因为它们形成了数据的水平条纹;我们用红色的虚线圆圈突出了三个例子。当同一组有一个单一的蹲姿效应大小(Y值),但有多个紧密间隔的冲刺效应大小(X值)时,就会出现这些水平条纹。
Meta分析学家可以通过使用适当的统计模型,如多层次模型来说明相关的观察结果。多层次Meta分析考虑了一项研究中的多个效应大小,或者更广泛地说:当一个群组内的效应比跨群组的效应大小更相似时。当多个效应大小的相关性太高时,最好只选择一个效应大小来纳入。在Seitz等人的案例中,我们使用多层次模型对数据进行了重新分析,并在研究中嵌套了组别,以考虑每个研究中的多个组别,但由于冲刺时间的人内相关性极高(类内相关系数=0.96),因此我们只将每个组别中的单一冲刺指标包括在内。
2.4 未考虑研究内差异
在Meta分析或Meta回归中,研究按其提供的信息量加权,如提供更多信息的研究加权更多。这通常是通过研究内方差(或当每个研究有多个组时,组内方差)的倒数来加权。如果不纳入这一信息,就意味着无论研究的样本大小,都会被平等对待。
Seitz等人在他们的Meta分析或Meta回归中都没有纳入研究内方差的信息。他们似乎在所有的分析中都运行了简单的线性回归模型。由于Seitz等人所包含的大多数研究都是类似的小规模研究,在这个例子中,研究权重没有很大的变化,因此对结果的影响可能不大。然而,当样本量差异较大时,这可能会对许多Meta分析产生有意义的影响。试图汇集效应量或进行Meta回归的研究人员应该选择适当的统计模型,将研究权重纳入其中。
2.5 关注组内而非组间结果
许多Meta分析包括对照研究,但更注重组内变化而不是组间比较。这可能会导致过度陈述的结果。通过与对照组的比较,这消除了无论干预措施如何都可能发生的效应(如安慰剂效应)。在统计学上,使用组内比较与相应的组间比较,也更容易找到显著的结果。
例如,Seitz.等人在他们的Meta分析中包括了对照研究,但只报告了组内而不是组间的效应大小。例如,他们报告说,在接受干预的组中,短跑成绩总体上有0.87个标准差的提高,但他们没有报告组间效应大小,即直接比较干预组与各自对照组的提高。当与对照组比较时,效果大小可能更小。例如,考虑Sander等人中的15岁以下组:干预组的短跑效应大小为-1.38,这是大的;然而,对照组的短跑效应大小也很大。- 0.79. 因此,当两组直接比较时,效果大小只是适度的:- 0.5。Meta分析员应优先考虑有对照组的研究,并应将重点放在组间比较而不是组内比较。
2.6 重新分析
我们重新提取了Seitzet al.中包括的15项研究的数据。数据提取是由两位独立的调查员(DK和KS)进行的。我们不得不排除来自Tsimahidis等人的数据集,因为该研究的原始数据和作者要求的原始数据只提供了深蹲表现的百分比变化,而呈现公斤数变化的数据则无法获得。我们还根据相关研究中的数据做了以下补充修改:(1)在Ronnestad等人中增加了两个干预组,并删除了对照组的数据点,因为在原始研究中没有找到对照组;(2)在Ronnestad等人中分别增加了一个干预组和一个对照组。提取的数据见电子补充材料(ESM)。
由于同一组的冲刺测量值之间有很高的相关性(类内相关系数=0.96),我们只包括每组最长的冲刺测量距离。这样我们就得到了来自14项研究的33个组(24个实验组,9个对照组)的33个效应大小(因为Tsimahidis等人被排除在外)。我们使用R中的{metaphor}包,用多级随机效应模型对数据进行分析,组别嵌套在研究中(更多细节和R代码见ESM)。
Seitz等人报告了深蹲力量和短跑时间的组内变化的Hedges'g效应大小。他们报告了深蹲效应大小和短跑效应大小之间的相关系数为-0.773(95%CI-0.847, -0.670)。在我们的重新分析中,我们发现一个更温和的相关系数为-0.56, 95%CI为-0.75, -0.26。图2显示了与我们的分析相对应的图表。我们注意到,仍有几个数据点的效应大小大得惊人(下蹲效应大小的改善超过了3个标准差)。尽管我们能够验证这些是根据相关论文的平均值和标准差计算出来的正确数值,但我们不能排除相关数据中存在的错误;例如,一些论文报告的标准差对于给定的测量值来说意外地小。
尽管重新分析并没有改变Meta分析的总体结论,但它确实缓和了这些结论--0.773的相关性代表了一个大的相关性,其中大部分(59.7%)短跑改进的方差可以归因于下半身肌肉力量的增加,而0.56意味着一个更温和的相关性,其中只有少数(31%)的短跑改进的方差可以归因于下半身肌肉力量的增加。幅度的下降主要是由于除去了Wong等人的离群值。此外,重要的是,CI的精确性大大降低。CI的宽度几乎增加了三倍,从0.18增加到0.49,这主要是由于适当地考虑了相关的观察结果和正确地应用了随机效应Meta回归来考虑研究间的异质性。
3 第二部分:这些错误在其他高引用率的力量与调理Meta分析中的频率
为了确定这些错误在其他高引用率的Meta分析中的常见程度,我们系统地回顾了过去20年中在力量与调理研究领域中引用率最高的20项Meta分析。我们选择了力量和调节研究,因为以前发表的Meta分析利用了不正确的统计方法,导致了有缺陷的结论和实际建议。
我们的纳入标准要求进行Meta分析或Meta回归,考察训练干预对常见运动表现任务(如短跑、跳跃和投掷)的影响。两位作者(DK和SN)搜索了两个电子数据库,一个是高排名的爬虫或易于使用的搜索引擎(谷歌学术),一个是重复搜索结果能力较强的书目数据库(SCOPUS)。检索的目的不是系统回顾,而只是为了按引文(Scopus或Google Scholar引文)确定过去20年(2000-2020年)有影响力的论文,这些论文很可能对力量与调节的现行实践产生影响。由于这篇文章最初被设想为一篇教学文章,我们没有预先注册方法学方法。2021年2月19日,我们使用了以下搜索词来确定潜在的文章:Meta分析或Meta回归和力量或阻力和训练和运动和表现或短跑或加速或跳跃或投掷。检索策略、检索结果和被排除的文章在图3中进行了总结,并在ESM中提供。
我们确定了被引用次数最多的20篇论文(在Google Scholar或Scopus中基于平均引用次数),并针对第一部分中确定的5个错误进行了系统的审查。Seitz等人是引用率第九高的Meta分析,包含所有五个统计学或方法学错误,因此被用作第一部分的例子(表1)。在本文中,我们将异常值定义为大于3.0的标准化效应大小,因为对于力量和调节研究中的大多数干预措施来说,3个标准差的改善是一个难以置信的效应大小。请注意,离群点的存在并不一定代表错误--未能进一步探讨数据点的有效性及其对结果的影响才是错误。所有作者(DK、SN和KS)都检查了表格、文本和数字,以确定这种离群值。五篇论文只报告了集合效应量或关于效应量的汇总统计(如平均值和标准差);对于这些论文,我们无法评估是否存在异常值,因为我们无法获得用于Meta分析的单个效应量。对于标准误/标准差的替换,鉴于所有20项研究中报告了大量的效应量,我们不可能检查每个报告的效应量。相反,两位作者(DK和KS)通过从相关论文中提取数据,检查了所有被认为是异常值的效应量以及那些没有异常值的Meta分析中的最大效应量。对于Williams等人,他们的图2中列出了所有的效应大小,但没有与具体的研究相联系,因此我们从所有的基础论文中提取数据来识别和检查最大的效应大小。我们无法检查未能报告单个效应大小的五篇论文中的标准差/标准误的替换情况。对于剩下的三个错误,两位作者(DK和KS)评估了统计方法,以确定如何处理相关的观察结果,使用了什么建模方法,以及效应大小是反映组内还是组间的比较。我们最初的一致意见是93%。评审员之间的任何初步分歧(见ESM)都通过共识解决。
表1描述了系统回顾的结果。在确定一项Meta分析因统计错误导致结论不正确而于2018年被撤回后,我们排除了该Meta分析。我们用搜索到的第21个引用率最高的Meta分析取代了这个被撤回的Meta分析。
总之,我们发现有五项Meta分析(25%)存在异常值,定义为效应量大于3.0。对于另外五项Meta分析,我们无法确定是否存在异常值,因为这些论文没有报告单个效应量,而只是报告了集合效应或关于效应量的汇总统计(例如,多个研究中效应量的平均值和标准差)。五个有确认异常值的Meta分析共包含22个大于3.0的效应量。其中,13个(59%)是由于作者使用标准误而不是标准差(ESM)对效应量计算错误。其余9项异常值的解释尚不清楚,但我们注意到一些研究的标准差出奇的低,而其他研究的效应量较大,这仍然是合理的,如由于青年队列中的成熟度。图4、图5和图6显示了我们综述中三篇含有离群值的论文的森林图;这些离群值在森林图上非常容易发现,它们都是因为作者在计算时不小心使用了标准误差而不是标准差。
20个Meta分析中有9个(45%)在计算至少一个报告的效应量时意外地使用了标准误而不是标准差。对于另外5项Meta分析,我们无法评估是否出现了这种错误,因为这些论文没有报告单个效应量(如前所述)。ESM显示了所有被确定为有标准差/标准误差的效应大小,以及它们的修正值。我们注意到,在一些情况下,这种错误导致效应量被认为是大的,但不是难以置信的大(例如,效应大小约为1.0);这些情况更难发现。9项Meta分析(45%)在分析中忽略了研究内的相关性,由于统计方法部分缺乏细节,我们无法准确评估另外一项Meta分析中是否存在这种错误。8项Meta分析(40%)没有使用适当的Meta分析或Meta回归技术,根据研究贡献的信息量进行加权。最后,9项Meta分析(45%)侧重于组内而非组间结果。
虽然不是我们系统性搜索的错误,但我们也发现有两个Meta分析使用变化分数的标准差,而不是测试前和测试后标准差的集合标准差来计算标准化的平均差异。这是有问题的,因为除以变化分数的标准差可以得到关于统计学意义的信息,而不是关于效应的大小;但这些Meta分析的作者却错误地将汇集的效应量解释为提供关于大小的信息。如果使用正确的标准差,这很可能会导致较低的效应量。
4 结论
Meta分析和Meta回归中的错误会严重影响计算结果并导致错误的结论。我们介绍了一个Meta回归的例子(Seitz等人),并强调了导致高估深蹲力量的增加和短跑成绩的改善之间关系的五个错误。
然后,我们系统地回顾了过去20年中被引用次数最多的20个力量和调节研究的Meta分析和元回归,以评估这些特定错误的频率。尽管这五种错误并不是Meta分析中所有可能的统计错误的详尽清单,但它们代表了“容易发现”的错误,而且往往影响很大。我们发现这些错误出乎意料地普遍:在过去20年中,在力量与调节领域被引用次数最多的前20个Meta分析/Meta回归中,75%至少包含这五个统计错误中的一个。另外20个中的2个(另外的10%)在计算标准化平均差异(使用变化分数的标准差)时含有一个单独的错误。换句话说,在过去20年里,我们在力量和调节研究中引用率最高的20个Meta分析中发现了85%的统计错误。
近一半(45%)的Meta分析包含至少一个被高估的效应大小,因为在计算效应大小时错误地使用了标准误差而不是标准差。这可能是对这种错误频率的低估,因为(1)我们无法评估20项研究中5项的这种错误,(2)我们没有检查那些报告了单个效应大小的论文中的效应大小。在许多情况下,这个错误导致了令人难以置信的大而明显的效应大小,可以说在同行评审中应该被发现(见图1和图4、5和6的例子)。我们注意到,大约60%的大于3.0的效应大小是由于标准误差/标准差混淆造成的,这意味着大于3.0的效应大小应该被高度怀疑为错误。标准误/标准差混淆也可能导致效应量较大,但不是难以置信的大,例如,效应量在1.0左右,这可能更难发现。
近一半(45%)的Meta分析未能正确考虑相关的观察结果,尽管许多研究包括来自同一研究的许多效应大小,而且往往来自同一研究中的同一组。例如,Seitz等人包括了来自15个研究的85个不同的效应量,包括来自一个研究的36个效应量。这种错误会导致P值和CI宽度被大大低估。
40%的研究使用简单的统计方法(如未加权的平均值)而不是适当的Meta分析技术来合并效应大小,这可能导致小研究与大研究的权重相同而产生错误。最后,45%的研究侧重于组内效应,而组间效应则更为合适,这可能会导致过度乐观的结果。
5 未来的建议
1. 了解Meta分析中常见的错误来源有助于读者评估已发表的研究。我们对Meta分析中可能影响结果和结论的五个错误进行了概述。因此,我们首先建议严格观察所提交的数据和结果(如表格和森林图),以发现潜在的异常值。特别是,效应量≥3.0应该有很高的怀疑指数,因为我们发现,大多数这么大的效应量是因为混淆了标准差的标准误。评估统计方法可以发现进一步的统计问题。特别是,应检查论文以确保他们使用了适当的模型进行Meta分析/Meta回归,并在适用时考虑到相关的观察结果。我们建议,当标题或研究结果几乎“好得不能再好”时,要特别挑剔,并根据提出的结果和方法学方法检查结论的可信度。
2. 2.在分析和解释Meta分析时提供更多的透明度,可以帮助减少错误和有缺陷的结论。因此,公开分享获取数据本身的程序(如搜索语法)和所使用的分析方法(如R脚本),使其他人能够识别和报告潜在的错误并纠正所发表的结论。此外,我们建议作者提供所有相关的描述性结果,并加上适当的标签(如平均值±标准差)和去掉标识的原始数据(如作为补充文件),以简化Meta分析的数据提取。同样,我们建议对Meta分析进行预先登记(如开放科学框架),以提高透明度和报告结果的可信度。
3. 最后,这种有缺陷的Meta分析的数量引起了人们对同行评审过程质量的严重关切,突出表明在评估提交的材料时更需要方法学和统计学的专业知识。对于Meta分析,如果可能的话,我们建议与统计学家合作,以确保有适当的方法。
转自:“一起学科研”微信公众号
如有侵权,请联系本站删除!