投稿问答最小化  关闭

万维书刊APP下载

NBE | 四川大学李为民/王成弟等合作开发新的模型作为临床诊断辅助工具,以统一的方式处理多模态输入

2023/6/25 15:16:24  阅读:92 发布者:

在诊断过程中,临床医生利用多模式信息,如主诉、医学图像和实验室测试结果。用于辅助诊断的深度学习模型尚未满足这种利用多模态信息的要求。

2023612日,四川大学李为民、王成弟、澳门科技大学张康及香港大学Yizhou Yu共同通讯在Nature Biomedical Engineering IF=29)在线发表题为“A transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics”的研究论文,该研究报告了一个基于Transformer的表征学习模型作为临床诊断辅助工具,以统一的方式处理多模态输入。

该模型不是学习特定于模态的特征,而是利用嵌入层将图像、非结构化和结构化文本转换为视觉标记和文本标记,并使用具有模态内和多模态关注的双向块来学习X射线片、非结构化主诉和临床病史以及结构化临床信息(如实验室测试结果和患者人口统计信息)的整体表示。统一模型在肺部疾病的识别(分别高出12%9%)和对COVID-19患者不良临床结局的预测(分别高出29%7%)方面优于仅图像模型和非统一多模态诊断模型。统一的多模式转换器为基础的模型可能有助于简化病人的分类和促进临床决策过程。

利用多模式临床信息进行医学诊断已成为现代医学的普遍做法。例如,除了胸片外,胸科医生还需要考虑每位患者的人口统计数据(如年龄和性别)、主诉(如现在和过去的病史)和实验室检测报告,以做出准确的诊断决定。在实践中,异常的X线图像首先与主诉中提到的症状或实验室检查报告中的异常结果有关。然后,医生依靠他们丰富的领域知识和多年的培训,通过联合解释这些多模态数据来做出最佳诊断。利用多模式临床信息的重要性在不同专业的文献中得到了广泛的证实,包括但不限于放射学、皮肤科和眼科。

上述多模式诊断工作流程需要大量专业知识,而医疗资源有限的地理区域可能无法提供这些专业知识。同时,单纯增加有经验的医生和放射科医生的工作量,不可避免地会耗尽他们的精力,从而增加误诊的风险。为了满足对精准医疗日益增长的需求,机器学习技术已成为自动智能医疗诊断的实际选择。在这些技术中,深度学习的发展赋予机器学习模型从接近或达到人类专家水平的医学图像中检测疾病的能力。

非统一的多模态诊断范式与IRENE的对比(图源自Nature Biomedical Engineering

尽管近年来基于人工智能(AI)的医学图像诊断取得了巨大的进步,但如何联合解读医学图像及其相关的临床背景仍然是一个挑战。当前的多模式临床决策支持系统大多依赖于一种非统一的方式来融合来自多个来源的信息。给定一组来自不同来源的输入数据,这些方法首先将它们大致分为三种基本模式,即图像、叙述性文本(例如主诉,其中包括当前和过去的病史)和结构化字段(例如人口统计和实验室测试结果)。接下来,引入文本结构化过程,将叙事文本转化为结构化符号。然后,不同模式的数据被馈送到不同的机器学习模型中,以产生特定于模式的特征或预测。最后,采用融合模块来统一这些特定于模式的特征或预测,以做出最终的诊断决策。

该研究提出了IRENE,这是一个基于人工智能的统一医学诊断模型,旨在通过联合学习医学图像、非结构化主诉和结构化临床信息的整体表示来做出决策。IRENE可能是第一个使用单一、统一的AI模型同时对多模态临床信息进行整体表征学习的医学诊断方法。IRENE的核心是统一的多模态诊断Transformer(MDT)和双向多模态注意力块。MDT是一种新的Transformer堆栈,可以直接从多模态输入数据中产生诊断结果。这种新算法使IRENE能够采用不同于以前的非统一方法,逐步从多模式临床信息中学习整体表示,同时消除了学习模式特定特征的单独路径。

原文链接:

https://www.nature.com/articles/s41551-023-01045-x

转自:iNature”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com