投稿问答最小化  关闭

万维书刊APP下载

复合参照标准在诊断性研究中的应用价值

2023/1/9 17:21:40  阅读:116 发布者:

英国医学杂志中文版, 2014,17(1)  A Christiana, Bertens Loes C M, van Smeden Maarten, .

摘要

在诊断精确性的试验中,优化疾病状态最终分类的方法常常是综合几项不同的试验来进行分析,但这种方法使用起来却常常令人摸不着头脑。本文旨在讨论如何恰当的运用和报告复合参照标准。

在诊断精确性的试验中,优化疾病状态最终分类的方法常常是综合几项不同的试验来进行分析,但这种方法使用起来却常常令人摸不着头脑。本文旨在讨论如何恰当的运用和报告复合参照标准。

诊断性研究中一个常见的难点是如何在所有受试者中得到一个最终的诊断结果。理想情况下,一个单一无错误的参照试验,也就是"金标准试验",常被用作最后的诊断和用来评估被研究试验或诊断模型的准确性。如果一个参照标准不能准确反映真实的目标疾病状态,那么评估研究中的试验或模型(待评价试验)是否准确的指标,如敏感性、特异性、抑或是曲线下面积,都会发生偏倚。这就是所谓的不完全参照偏倚。有一种方法能减少该偏倚的发生,那就是运用一种固定的规则来使几项不完全的试验结果联合成复合参照标准。当这些复合而成的试验对疾病诊断均优于单个试验的时候,那么,相对于仅仅使用一种不完全试验作为参照标准,那些研究中的试验(待评价试验)的准确性评估中的偏倚将会较小。我们不推荐采用分别比较待评价试验和组分试验来平均化准确性评估。较好且较有深度的做法是把那些组分试验联合成复合参照标准。

复合参照标准的特点在于,任意试验结果的组合都将会得到一个特定的最终诊断,简单的来讲,就是患病或未患疾病。举个例子,有一项评估快速抗原试验检测阴道滴虫病的准确性研究,研究者们决定放弃使用传统的金标准方法,即病原体培养,原因是可能会遗漏某些病例。由于他们认为显微镜检查会误诊出患病病例,于是无论显微镜检查还是培养结果,只要有一方是阳性,他们便认定患者为患病状态。表1中给出了更多的实例。

虽然组分试验的选择以及联合组分试验的规则都有可能影响受试研究准确性的评估,但是如何定义和发展复合参照标准的指南却少之又少。除此之外,尚未对复合参照标准这一术语如何使用达成共识,结果的报告也并不完善。为了解决这些问题,我们在此对复合参照标准做出解释,并对它的建立和报告提出建议。

何谓复合参照标准?

复合参照标准即是一种固定的规则,用来对基于两种或两种以上试验(也就是组分试验)的结果做出最终诊断。对于任何一种组分试验的排列组合(试验谱),都有一个有无目标疾病状态的判断。

复合参照标准的研究非常热门,因为它们和临床实践之间非常相似。它们和某些疾病的诊断标准的确类似,如风湿热和抑郁。它们主要的优点在于结果的可重复性,这需要所有受试者获得最终诊断的途径是透明和一致的。然而,它们也是有缺点的,最突出的莫过于其在标准发展中的主观性。

复合参照标准这一术语的定义,有时也常常被放宽。只要是使用两个以上试验来评估待评价试验的准确性,这一情况都可称之为复合参照标准。当不同的参照标准用于不同组分的受试者时,复合参照标准有时也会被错误地使用于描述差异核实(2)。复合参照标准也可用来描述差异性分析,即重新采用或重新评估参照标准,或者是当第一个参照标准不符合诊断性试验时采用另一个不同的参照标准。以上方法均会引起准确性评估的严重偏倚,所以要尽量避免这个问题。

在表2关于深静脉血栓的例子中,差异核实被误认为是一种复合参照标准。研究者对阴性结果受试者进行临床随访,阳性结果的受试者则接受了首选的参照标准,即CT检查。如果随访过程中,理应由CT检测出的微小静脉血栓被遗漏了,那么假阴性结果的数量将会被低估,而真阴性结果的数量则被高估,从而使准确性估计产生偏倚。由于存在伦理和实际应用中障碍,很难对所有的受试者实施同样的参照标准,但很重要的一点是,差异核实常被用于描述这种情况。

2同样也给出了一个差异性分析的例子,描述的是一个冠状动脉狭窄的影像学研究。其中,参照标准并不能符合待评价试验的结果,那么进行了重新评估。这种重新评估只会增加待评价试验和参照标准之间的符合率,反过来导致准确性被高估。尽管差异性分析不被推荐,但某些情况下,如参照标准被重复使用,或者是当待评价试验和第一个参照标准不符合时使用另一种参照标准,都应当被称之为差异性分析。

为了避免混淆,如果研究设计者想要受试者接受同样的组分试验,并且对这些组分试验能够解释,以某一种固定的方式结合起来,我们尤其推荐使用复合参照标准这一术语。

建立一项复合参照标准

由于组分试验的选择和联合组分试验的特定规则都会强烈影响复合参照标准的准确性,所以在建立决策规则时要十分仔细。理想情况下,试验结果的联合和相应的最终诊断应当在研究前就设定好,以防止数据驱动决策的发生。然而,如果对于最佳的复合参照标准尚不确定,可以运用敏感性分析来观察结果对特定选择的试验或是联合标准的敏感性如何。同样重要的是,复合参照标准是临床相关的。换句话讲,它必须用于发现那些从临床干预中获益的病例,而不是简单的是否患病。在临床上,当真实的疾病状态无法被定义时,复合参照标准便能反映临时的工作定义。时刻牢记诊断性的指南,从该领域的专家中获取建议会帮助你坚信你的选择是临床相关和能够解释的。

定义联合组分试验的规则

联合组分试验成为复合参照标准的规则有两条。联合两个独立的组分试验最简单的方案是,如果任何一个试验均指向疾病状态("任意阳性"规则,也称之为""规则),那么受试者就被认为患有该疾病。另一可选择的方案是,只在两个试验同时指出疾病状态时("所有均阳性"规则,也称之为""规则),受试者才被认为患有该疾病。如果有超过两个的组分试验,研究者便可以把两者结合起来。

增加组分试验的数目也同样会增加诊断为患病的受试者的数目。如果使用任何一条阳性规则,那么复合参照标准的敏感性将会提高(更多真正患病的受试者被诊断为患病),而使特异性下降(更多没有疾病的受试者会被归为患病)""规则则是相反的结果:复合参照标准的敏感性下降而特异性上升。表3给出了选择复合规则如何影响复合参照标准准确性的实例,反过来也就是影响了待评价试验的准确性评估。

当涉及到不同的复合组分试验的方法时,敏感性和特异性之间常常有一种权衡。当然也有例外情况,其一便是当组分试验运用""规则时,其敏感性非常好,导致复合参照标准的敏感性也非常好;其二是当组分试验运用""规则时,其特异性非常好,导致复合参照标准的特异性也非常好。接近完美的敏感性和特异性,常常是规则选择的理由。

组分试验的选择

尽管纳入大量的组分试验看上去很吸引人,但纳入太多的话会导致复合参照标准的获益下降(临床可解释性也会下降)。这是因为,额外的组分试验可能无法提供新的信息。在阴道滴虫病那个例子中,如果添加了另外一种方法,如酶联免疫放大法,会得到额外的阳性结果。然而,如果添加的方法越多,补充得到的阳性结果越少,因为未被检测出的阳性结果数目也少了。最终,所有的阳性结果都能被检测出来,而额外的方法只会导致假阳性结果,因此降低了复合参照标准的特异性。

仅仅在组分试验之间产生互相矛盾时,多重试验才有用武之地。举个例子来讲,在那些确实患有滴虫病的受试者组中,如果使用显微镜检测在病原体培养阳性的患者中也发现了滴虫,那么显微镜检测并没有提供任何用的信息,因此这种复合参照标准的敏感性不会比单纯培养法来的高。当那些组分试验或多或少对是否患病的受试者做出同样分类归结于偶然因素时,这就是所谓的条件相关性。

在某些案例中,根据疾病不同的生物学背景来选择那些组分试验能有效地减少和避免条件相关性(偶然因素)的产生。为避免组分试验有类似的错误,如果获知这些试验结果会影响研究者对另一项试验结果的解释,你应该考虑对不同的研究者采取盲法。

基础复合参照标准的衍生

基础复合参照标准将患者简单分为患病和未患病两类。但是也可以进行多重疾病分类,如疾病亚型、疾病阶段或者疾病的确定程度。例如,一项结核病的研究中就将人群按疾病的确定程度分为4个等级(4)

基础复合参照标准中的每项试验所占的权重相等,但在临床实践中,各个试验的权重并不相等。可以通过分配权重值在其中引入不同组分试验的相对重要性。例如,表1中评价患者对异烟肼治疗潜伏肺结核的依赖性,最可靠的试验所分配得到的权重是其他试验的两倍。

组分试验中的缺失值

正如所有的诊断准确性研究,如果并非所有受试者都了解参照标准,那么结果可能有偏倚。组分试验需要特别注意其中的缺失值。例如,如果使用"任意阳性"规则,组分试验1的结果为阳性,那可以判断得出患者直到患病也并不知道组分试验2的结果。为了提高效率,对于第一次试验结果为阳性的患者,研究者可能会考虑省去第二次试验。当第一次试验结果为阴性,那么必须进行第二次试验才能进行诊断。

如果按照复合标准的要求,如果一个必须的组分试验结果缺失,那复合参照标准也将缺失。这就可能影响到待评价试验的准确性评估,因此需要使用数学方法对这种偏倚进行初步校正。

报告指南

对于读者而言,完整准确地报告参照标准的步骤对判断准确性评估的偏倚是否有潜在性风险非常关键。这一点对于诊断试验的系统性综述尤为重要。当研究使用不同的参照标准或参照标准定义不明确或未有清楚的报道时,比较研究之间的准确性评估以及建立跨研究的估计值数据库可能无意义。因此我们建议在现在的报告指南的基础上,诊断准确性研究的研究人员应该添加以下关于复合参照标准的具体内容:

选择组分试验和联合规则的基本原理

每一项研究组合的相关最终诊断结果

组分试验的结果是否有缺失以及这一缺失是否导致复合参照标准缺失

每一项研究组合的受试者人数。对于连续试验,至少要提供最优或最常见的截点数据。

5是报告模板。具备了以上所有的信息,复合参照标准就可以和只用一项组分试验作为参照标准的研究进行比较。

结论和建议

综合多重试验对目标疾病状态进行诊断而非只运用一项有缺陷的试验,可以解决有缺陷的参照标准所带来的偏倚,是一种透明、可重复的方法。尽管复合参照标准可以降低这种偏倚,但是却不能完全消除偏倚,因为一系列有缺陷的试验不可能共同形成一个敏感度、特异性完美的复合标准。

对于有缺陷的参照标准所带来的结果偏倚,还有一些解决方案例如小组诊断和潜伏组分析。对于小组诊断,多名专家对相关患者的特征、试验结果进行回顾,有时还会加上随访信息,凭此对每个患者达成一个共同的诊断。潜伏组分析对准确性估计的原理是它认为真实的疾病状态是无法观察到的,需要采用数据模型将疾病与多项试验结果联系起来。如何选择解决诊断标准缺陷的方法,可能取决于具体试验中诊断信息的类型、数量和准确度。可以综合3种方法得到的结果从而提高表面有效性。使用复合参照标准的研究者通过遵循上述报告指南的原则可以进一步提高结果的透明度和可重复性。

转自:“医学科研与管理空间”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com