投稿问答最小化  关闭

万维书刊APP下载

构建医学领域科学未知库:支持问题导向的基础研究选题

2023/12/21 10:48:18  阅读:191 发布者:

中华医学科研管理杂志, 2023年·36卷·04期 赵文静 鲍锦涛 杜建

摘要

目的科学未知作为重大科学挑战的显性表征,孕育着颠覆性、非共识、高风险性的科学问题。对科学未知识别方法的开发、工具平台的建立能够为问题导向下基础研究选题提供数据支撑,是需求和问题导向下科技创新体系管理机制的必然需求与必要探索。

方法目前,医学领域已构建大量的知识库(Knowledge-base),但仍缺乏对未知库(Unknown-base)的关注。本文通过回溯相关文献并梳理已有研究,尝试结合科学大数据研究的方法范式与文本挖掘技术思路,从概念、识别方法与未知库构建视角提供解读与启示。

结果系统性辨析了科学未知的概念内涵,从认知状态与逻辑规则视角提出了科学未知的识别方法,并从属性、关系与疾病维度探讨了科学未知的分类框架与实现路径,为医学未知库的构建提供了初步思路。

结论医学科学未知的相关研究是涉及情报科学、数据科学、医学信息学与科技管理领域的交叉方向,本文尝试性阐述了科学未知的研究意义及应用场景,以期为领域内学者开展该相关研究提供思路与借鉴。

1 引言

基础研究是科技发展的创新源泉,进行颠覆性、前沿性的原创基础研究是催生颠覆性创新成果、突破"卡脖子"技术问题、实现高水平科技自由的核心途径。高质量的基础研究首先需要提出问题,尤其是提出能够"引发更多问题的问题",指引科技创新方向。科学探索的本质即为提高对未知或未充分理解事物的认识[ 1 ],因此"提出好问题"是科学进步的源动力。2007年,教育部、科技部、中国科学院、国家自然科学基金委员会等四部门联合发起了"10 000个科学难题"征集活动,涉及各学科尚未解决的基础理论问题、优先发展问题、前沿热点问题和学术争论问题等,旨在提高我国自主创新能力,加强对科学研究的导向作用[ 1 ]2018年以来,中国科协连续5年组织全国学会、企业科协等组织,广泛联系国内外科技组织和专家,征集评选重大科技问题难题,并在每年的中国科协年会上发布[ 2 , 3 ]。实际上,科学研究是一个不断将"未知"转化为"已知"的过程,发现和识别"未知"的科学知识(即科学未知),并基于此凝练科学问题,是科研工作开展的起点,是支持问题导向下基础研究选题的重要途径。

整个科学发展史就是一个不断发现科学问题、通过科研活动将科学未知转化为已知,同时又不断产生新未知的历史。已知科学知识指定义性的、确定性的知识,对应的未知知识指悬而未决的、处于矛盾和不确定性状态的科学知识。科学未知蕴含着具有颠覆性、非共识、高风险性的科学问题,是新知识产生的催化剂,是科学发展的重要内在动力。从科技资源分配的宏观层面来看,构建需求导向和问题导向的科技治理体系,强调研究的目标导向,聚焦解决关键领域的"卡脖子"问题。明晰什么是"卡脖子"的科学问题,识别医学领域的悬而未决的难题,是实现逐步破解技术封锁的必要基础。从科学家在科研选题决策过程的微观层面来看,其主要出发点在于尚未解决的科学问题,是具体的、微观的问题,科学未知库的构建能够为科研人员的选题提供确切、系统的数据支撑[ 2 ]

医学是一门追求精准的科学,医学知识的确定性直接影响了临床诊断与医疗实践。因此,医学场景下对于科学未知的理解、识别与分类具有重要意义。实际上,逻辑上冲突的观点或医学主张并非偶然或特例。比如,盐摄入与心脑血管疾病的关系仍未定论,因此公共卫生领域对于食用盐标准仍存"盐争议"(Salt controversy)[ 3 ]Ioannidis等基于19902003年间发表且具有较高被引次数的6个非随机和39个随机研究数据的研究表明,部分试验结论被后续研究证实存在夸大或矛盾[ 4 ]。麦吉尔大学的Herrera-Perez等的研究统计了396篇发表在JAMALancetNEJM上的涉及冲突性医疗知识的科学文献,进一步说明了尚未确证的医学知识的普遍性[ 5 ]

医学科技管理的两大核心任务是科技资源配置与风险管控。系统性识别医学领域的未知问题,并在此基础上构建相对于知识库(Knowledge-base)的科学未知库(Unknown-base),是优化医学科技管理的必要探索。资源配置方面,基于科学文本识别科学未知能够从"内容"层面指出"知识缺口"(Research gap),在为基础研究提供选题支持的同时,能够为优化前沿领域设置、科技资源布局提供更为精准的解决方案。风险管控方面,在医学研究与医疗实践中,未知往往指向科研或临床活动中存在的重大风险,对科学未知的挖掘是明晰医学科技创新中潜在风险的重要途径,能够为风险预警与管理提供支撑。为此,本文在梳理已有研究的基础上,一方面提出科学未知的概念,从该视角探讨了问题导向下基础研究选题的新思路,供学者与科技管理人员思考与讨论;另一方面尝试性提出了科学未知的识别方法与可能的分类框架,以期为国内学者开展该领域的研究提供借鉴。

2 科学未知的基本概念

2.1 知识状态的分类

科学探索的目的是提高对未知或未充分理解事物的认识,提高其确定性的过程。其中,知识状态逐渐从"完全未知"转化成为"公认事实"[ 1 ]。明晰知识状态的类型是对科学未知进行概念界定的前提。杜建等基于已知和未知的关系,从主观认识程度和客观知识状态两个维度,将知识状态分为4类:已感知的已知知识、尚未感知的已知知识、已感知的未知知识、尚未感知的未知知识[ 6 ]。科学探索中的未知主要指向客观知识状态为未知的知识,可以划分为已感知的未知知识("已知的未知")和尚未感知的未知知识("未知的未知")[ 6 ]"未知的未知"通常是通过意外、惊讶、偶然的科学发现,不具规律性。"已知的未知"指科学共同体(Science 125个前沿问题)或学者在学术论文中明确提出的某一科学主张尚处于未知状态,即已经知道的、需回答的未知问题。比如,美国哥伦比亚大学费尔斯坦教授在其著作《未知:如何驱动科学发展》一书中指出,"好的无知源于知识(Good ignorance springs from knowledge)"[ 7 ]。本研究关注的科学未知即为处于"已知的未知"状态的知识。

2.2 科学未知的概念内涵

从科学研究视角来看,当前对处于未知状态的知识的概念内涵没有统一的理解与表示。不同学者曾利用包括推测(Speculation)[ 8 ]、模糊表达(Hedged statements)[ 9 ]、无知(Ignorance)[ 10 ]、争议(Disagreement)[ 11 ]等术语表达处于未知状态的知识。笔者认为,与已知的科学知识(Scientific knowns)对应,未知的科学知识包含了尚未验证的、悬而未决的、处于矛盾和争议状态的科学知识。类比已有研究中对"科学问题"的内涵剖析[ 12 , 13 , 14 ],结合上述对"已知的未知"的讨论,本研究将科学未知界定为在已知背景知识基础上的未知,而不包含尚未感知的未知内容。其核心内涵为已知背景知识条件的必备性、构成科学问题内容的未知性;其本质主要为已有科学研究成果中所包含的矛盾、争议及不确定性等内容,这为基于大数据驱动的未知识别研究提供了理论基础。

从科技管理的视角来看,医学领域的未知包含待验证的病理机制、不确定的疗效等,这些均指向了医学研究与临床实践中可能存在的风险问题。医学是关乎人类生命健康的学科,其风险管控的需求更为突出。从科技创新的"风险与回报"的视角理解处于未知状态的科学,可进一步将科学未知分为4类,并对应不同的风险管控模式:高风险—高回报,优先资助,强监管;高风险—低回报,试点性/阶段性资助,强监管;低风险—高回报,常规资助,动态监管;低风险—低回报,非优先资助,需制定适宜技术应用指南。

科学研究的"回报—风险"可通过研究本身的"创新性—可行性"进行测试。具体而言,可行性描述项目实施的难易程度,高可行性项目执行风险较低,而低可行性项目的实施风险较高;创新性描述项目原创性或与领域现有知识体系的偏离程度,高创新性项目更易产生突破性、颠覆性成果,相应地其回报也更高[ 15 ]。量化层面来看,Franzoni等学者在探究如何将科学风险纳入科学基金评审的研究中指出,研究的风险主要来源于研究结果、研究方法与研究价值3个维度[ 16 ]。研究结果即该研究可能产生什么主要结果,是否有次要结果;研究方法即从概率角度估计特定方法是否可行、是否合理;研究价值即关注该研究有何种科学与社会价值。同时,让同行专家对上述3种风险进行打分与评估,将风险纳入同行评审过程;进而结合主观期望效用(Subjective Expected Utility, SEU)方法,建立科学研究风险的定量测度模型。创新性测度层面,已有研究基于文本内容、引用关系等角度构建指标[ 17 , 18 , 19 , 20 ]。比如,2019Nature 发表的Large teams develop and small teams disrupt science and technology一文中从文献的施引论文对于引用其自身和其参考文献的角度,设计科学研究的颠覆性指数,测度其创新性。综上,"风险与回报"为理解科学未知提供了另一种视角,但仍缺乏从"内容"层面大规模识别科学未知的研究。数据驱动视角下科学未知库的构建,能够为遴选颠覆性与创新性的基础科学问题提供系统性支持,并在兼顾鼓励创新与规避风险决策难点的基础上,为科技管理提供更为完整的证据支持。

3 科学未知的识别方法

3.1 基于专家共识的识别方法

当前科学未知的发现主要依赖科学工作者个体的大量阅读和知识积累,存在成本高、缺乏系统性、偶然性强、难以实现动态更新且难以复现等局限性。具体来看,医学科研结果所表达的即为某一研究问题相关的主张,此类文本隐藏于体量巨大的研究数据中,通过领域专家的人工审读与梳理,可形成针对特定科学选题的科学未知综述研究。比如,Prasad等通过统计2009年发表在主要临床期刊的35项试验研究,发现有16个研究得出的证据与此前相冲突[ 21 ]Herrera-Perez等基于396篇发表在权威期刊(JAMALancetNEJM)的科学文献,统计了其中的冲突性医学主张,这是目前最大、最权威的统计资料[ 5 ]

3.2 基于文本挖掘的识别方法

在大数据驱动的自动化识别层面,已有研究多数是通过利用自然语言处理等方法识别科研文本中包含模糊修饰词或者不确定性、矛盾和争议的表述,其中还包括通过触发词构建与识别、人工标注与NLP分类任务结合等方法。2019年,Rosemblat等利用NLP20种疾病相关的科学文本转化为结构化的"实体—关系—实体"主谓宾三元组,并将主宾相同、谓语相反的三元组视为在逻辑上是矛盾的主张,以识别科学未知[ 22 ]2020年,美国国立卫生研究院(NIH)资助了一项名为"科学问题:生物医学自然语言处理的新目标"(Scientific Questions: A New Target for Biomedical NLP)的项目。该项目旨在利用NLP技术识别、表示、整合与推理医学领域悬而未决的科学问题,以帮助学者与科技管理机构理解亟待突破的关键问题。在该项目的资助下,Hunter及其团队开展了对于科学未知分类、识别等研究[ 10 ]。在识别未知的基础上,该团队以产前营养领域为样本,基于该领域的科学文献构建了未知库(Ignorance-base),这是笔者所知的医学领域内唯一一个以从"未知"视角构建的知识库[ 23 ]

尽管研究者就科学未知对科学发展的重要性已达成共识,但如何通过对科研文本数据的挖掘与分析,开发自动化识别科学未知、构建系统化和标准化的科学未知库等研究仍处于起步阶段。获取包含矛盾、争议与不确定性知识描述性文本的科研数据是开展科学未知识别研究的第一步。考虑到医学健康研究的特点,笔者认为科学基金、临床试验与科学文献均从不同视角包含了对于科学未知的描述,其所涉及的多维字段数据(国家、时间等)可作为属性信息辅助科学未知表示。识别方法方面,参考杜建等学者对于知识不确定性表现形态的分类(假设推测和矛盾争议)[ 1 ],本文进一步提出可以基于知识语境的认知状态与逻辑规则,将科学未知划分为显性与隐性未知( 2 )

3.2.1 显性未知

显性科学未知指文本中通过利用特定词语(表达未知的词语、模糊修饰等)直接表达了某一主张存在矛盾、争议或不确定的属性,此类科学未知可以通过知识语境的认知状态进行识别。利用表征机制未知、病因不明确、关系不完整以及主张存在矛盾内涵的词语作为触发词,进而提取包含触发词的语句及其所包含实体识别显性未知。

3.2.2 隐性未知

隐性未知指基于知识单元存在的逻辑冲突识别的科学未知,其识别需要挖掘不同文本中对于同一主体的矛盾性表述。通过提取文献和试验数据中的三元组,进而基于知识单元存在的逻辑冲突识别的科学未知。考虑到医学研究所涉及的文本型与数值型数据,可以以文本数据中"主宾相同、谓语相反"和数值型数据中"干预—结局相同、效应值不同"作为识别规则,实现隐性未知的识别。最后,可通过汇集和结构化现有基于人工识别的期刊文献中的矛盾知识作为对照数据集,以检验识别路径的准确度。

4 科学未知库的构建

4.1 科学未知的分类

知识分类是知识组织的重要手段之一,也是构建系统化科学未知库的必要步骤。虽然知识分类的维度多样,但当前针对科学未知分类研究较为欠缺,多数研究聚焦于对知识不确定性来源[ 25 , 26 ]、表现形式[ 27 , 28 ]等进行研究。基于知识分类的互斥性、完整性与层级性原则[ 24 ],结合医学研究自身的特点,本研究提出可以从属性、关系与疾病3个维度对科学未知进行分类。

4.1.1 属性维度—基础/临床研究

医学科学研究包括一系列广泛的研究,研究属性维度下可划分为基础研究和临床研究。基础研究以理解人体的机制、结构、功能为目的,提供的是治病救人的"理论可能性";临床研究的主要目的是将基础研究所得的知识扩展并应用于临床诊疗,即通过开展以人为对象的试验,将"理论可能性"转化为"医疗确定性"。受此启发,本文提出以研究目标、研究类型、研究问题的逻辑顺序为切入口,以医学基础研究与临床研究的划分为基础,明晰不同类型医学研究聚焦的科学问题类型。实现路径方面,可以SNOMED CT4及其他医学本体库和术语库为基础,通过提取科学未知语句中包含的实体及语义类型,借鉴已有术语库的划分标准作为机器学习特征,结合机器学习完成自动化分类。

4.1.2 关系维度—因果性/相关性

医学科学的本质是保护和增进人类健康、预防和治疗疾病,其本质决定了因果关系是医学科学的核心课题,对理解病理机制、开展疾病诊疗起着至关重要的作用[ 29 ]。尽管医学领域对于科学未知和因果关系的重要性已达成共识,且基于不同方法的科学未知与因果关系抽取研究已取得一定进展[ 30 ],但仍鲜有将两者结合,比如抽取对科学未知进行因果关系分类的研究。针对基于认知状态提取的显性未知,可以考虑设计因果性未知抽取规则或者采用人工标注和机器学习结合方法。规则层面,在基于表达"未知"的触发词提取科学未知语句的基础上,借鉴已有研究中提出的因果关系表达规则[ 31 ],在科学未知文本中进行抽取与识别。机器学习层面,可以通过设计因果关系标注指南,招募领域内研究人员对科学未知语句的因果性[ 32 ]或者因果强度[ 33 ]进行标注与分类,进而结合深度学习模型方法识别因果性未知。隐性未知层面,可以通过总结已有研究中涉及的因果性与非因果性谓词[ 34 , 35 ],在三元组抽取的基础上,通过谓词类型判断科学未知的因果性。

4.1.3 疾病维度—疾病分类体系

医学是以疾病为中心的科学,基于疾病对科学未知分类,对于科技资源分配的系统化管理具有重要意义。可利用科学未知的来源数据的题目和摘要等更具丰富性内容的文本作为疾病信息抽取的语料。疾病体系层面,世界卫生组织(WHO)的全球健康监测(Global Health Estimates, GHE)[ 5 ]项目在以《国际疾病分类体系》(ICD)作为"母体系"的基础上,进一步将所有疾病划分成为包含4个层级的分级结构。实现路径方面,笔者前期研究已以医学主题词表(MeSH)为桥梁,以"科学文本数据—MeSH提取—MeSH与疾病关系映射—疾病类型划分与关联"为逻辑思路,构建了"MeSH—疾病类型"映射术语体系[ 36 ]MeSH提取层面,部分数据平台(PubMedClinicaltrials.gov)对其收录的科研数据标引了该研究相关的MeSH主题词。考虑到多数平台并未标记MeSH和标引的不完整性,可以利用医学文本索引器(MTI)6对医学自由文本标引其所涉及的MeSH主题词。MTI是美国国立医学图书馆开发的生物医学文献自动标引系统,其标引结果具有较高可靠性[ 37 ]。综上,通过利用知识抽取工具并构建"MeSH—疾病类型"的映射词表,实现科学未知的疾病维度分类。

4.2 科学未知库构建

知识状态是不断更新变化的,科学未知的状态也并非一成不变。相对于已知库(Knowledge-base),可以在识别与分类科学未知的基础上,搭建可持续追踪医学科研结果的、动态的科学未知库(Unknown-base),实现自动化、系统化的科学未知检索、获取与更新。科学未知多元属性信息主要包含以下两个维度:来源数据字段信息和科学未知涉及的PI/ECO要素。来源数据字段信息层面,可以结合信息科学领域的方法,对基金、试验和文献的元数据字段进行抽取、清洗与关联。PI/ECO要素层面,则需结合科学未知来源数据中自然语言表述的研究结论,利用基于TrialStreamer等自然语言处理工具将结论转换为PI/ECO结构。进而,结合上述从属性、关系与疾病维度对每一条科学未知的分类信息,利用语义网络模型完成科学未知中涉及的多元关系表示和关联网络构建。最后,在完成对科学未知识别、概念对齐、多元属性与信息匹配、数据校验与存储的基础上,构建可进行产生知识检索、获取与可视化的知识平台,为识别悬而未决的医疗问题与重大医疗需求提供证据基础。

大规模科技文献数据的获取与自然语言处理技术为实现本文所提出的科学未知库构建提供了数据基础与方法支撑。科学未知识别方法、分类框架与数据库构建也是笔者及课题组正在开展的重要工作。 1 展示了基于科学文本数据,从矛盾三元组(隐性)与触发词(显性)两个维度识别的科学未知示例。矛盾三元组层面共列举了"主宾相同、谓语相反"5组三元组,三元组的主语与宾语均与美国国立医学图书馆的统一医学语言系统(Unified Medical Language SystemUMLS)中的实体对齐。基于三元组格式识别的科学未知,可在未知库中基于主宾的语义类型(疾病、药物等)进行检索。利用表征未知的触发词[ 7 ]PubMed语句层面进行检索,可以提取"尚未验证、悬而未决、处于争议矛盾中"的研究主题,能够反映面向科学前沿、聚焦重大需求和挑战的科学问题。同时,从科学未知的句子中提取疾病的概念或实体,可间接反映存在着未解决的科学问题涉及的疾病。通过构建国际疾病分类与疾病实体的映射关系,不仅可以对科学未知涉及疾病进行分类,同时也可以计算和表征疾病的复杂性[ 6 ]。具体来看,基于三元组识别的隐性未知中,主宾语可以划分为疾病类(Cardiovascular Diseases)、药物类(trastuzumab)等语义类型;基于触发词识别的未知语句中,也包含了如Vessel occlusion strokes此类的疾病概念,此类信息是对未知进行疾病分类、属性分类的重要基础。而谓语,如Cause等明确表达因果性的谓语,是对未知进行相关性或因果性分类的基础。此外,结合三元组与触发词来源文献的ID信息,链接至数据库(PubMedWeb of Science),可获取其发表年份、机构与国家等元数据,进而统计与绘制科学问题的时间发展链路、空间分布特征等。

具体到科研人员个体层面的实用性,Sandberg等的研究表明科研人员构建一个科学问题最主要的方式是寻找"差距"(Gap),即通过回顾已有文献发现"差距",进而提出具体的研究问题[ 39 ]。而这样的"Gap"共有3类,即存在竞争性解释或者矛盾性结果的混淆类Gap、现有研究中没有给予足够关注或者研究不足的忽略类Gap、可以通过扩展与完善现有研究的应用类Gap。本文所提出的基于自然语言文本处理的方法,在科学文本中识别科学未知并构建未知库( 1 ),是对上述科研人员个体寻找"Gap"过程的自动化,符合科研人员提出或构建研究问题的基本路径,并且能够辅助提升其科研选题过程的效率。

5 讨论与展望

科学未知作为重大科学挑战的显性表征,孕育着颠覆性、非共识、高风险性的科学问题。医学领域内,疾病机制、诊疗方法等悬而未决的、不确定的科学未知是客观存在的,未知库的构建能够从内容层面识别各疾病医学科研的重难点与知识缺口,为问题导向下基础研究的选题提供数据支撑,进而为优先领域设置与科技资源布局提供更为精准的解决方案。同时,医学科学未知也是微观层面的医学科研与临床决策中应考虑的重要因素,能够辅助医疗研究与实践的风险点清单的制定,为临床试验的事前风险评估提供决策基础,并辅助医疗风险管理评估工作。另外,流行媒体文章将表示相关性的科学发现夸张为因果关系是医疗健康错误信息传播中最常见的现象[ 38 ]。医学科学未知库的构建能够为识别医疗健康领域错误信息系统性的参照,特别是被解读成因果关系的相关性发现,在信息监测、证据综合、知识传播和健康教育具有重要的应用价值。此外,"提出好问题"是科研工作的起点,是科学发现和技术创新的出发点和动力源。就笔者所知,当前国际上并未构建以疾病为中心的科学未知库。基于科学文本识别科学未知并构建知识库,能够从细粒度层面指出现有"研究空白"或者"知识缺口",为科研人员开展基础研究"科研选题知识库"。综上,对科学未知识别方法的开发、工具平台的建立及其在科技管理与医疗实践中的应用研究,是需求和问题导向下科技创新体系管理机制的必然需求与必要探索。

转自:“医学科研与管理空间”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com