投稿问答最小化  关闭

万维书刊APP下载

何为本体——本体如何作用于生命科学领域的数据管理

2022/9/22 10:48:07  阅读:246 发布者:

词条解读 

FAIRFAIR findability, accessibility, interoperability, and reusability的缩写(可查找、可访问,互操作和可重用),于20163月被提出,FAIR是“科学数据管理的指导原则”。

本体论:或叫作存在论、存有论等(ontology),是哲学的一個分支,研究存在、存有、生成和现实等概念。 它包括如何將实体分組到基本类别,以及這些实体中哪些存在于最基本的级别的問題。 本体有時被称为存有科学(英語:science of being),属于哲学的主要分支形而上学。

遗留数据:legacy data,指一组织所获取的数据是由另一组织编译好的。对接受数据的组织而言,就像由前一位数据拥有者获得的「遗产」一般。

近年来,随着小众药市场和个性化医疗被重视,药物发现为靶向精准治疗开辟了一条新的道路。

随着十万基因组计划”和 “精准医学计划”这些令人兴奋的项目出现,我们明白了靶向方法是如何促进患者的治疗效果的,也对人类生物学有了更深层的理解。

这些项目皆在强调一个事实:精准医疗的成功,很大程度上取决于公司是否能够利用庞大的多样化数据——包括已发表的文献、专有实验数据,以及患者的医疗记录。

人工智能 (AI) 为生命科学企业提供了一个提取知识的可靠选择,许多人正在探索该技术如何加速他们的研究计划。但有一个重要的警告——今天可用的大部分数据实际上都是不适用于人工智能的!

数据以多种格式孤立存储,元数据不足,难以检索、分析和共享。这意味着,如果提供给 AI 模型的数据质量不高、不可信且无法被机器读取,那么许多项目就会面临失败。因此,人工智能的一个关键先决条件是对科学数据的管理(即可查找、可访问、可互操作、可重用)

这正是本体所能体现价值的地方。

 什么是本体?

本体(ontologies)是指人为生成的、机器可识别的、对知识的描述,是大数据时代实现科学数据管理的关键工具所在。

然而,除了真正的业内专家,人们对于本体能够带来的科学与商业价值了解甚少,甚至根本不知道它的存在,这对于数据项目的成功来说是极大的阻碍。

从广义上讲,本体描述了事物(或称为‘类’)的“类型”以及它们之间的关系。例如,“鸡蛋”是一种“食物”。然后,我们会根据鸡蛋的制备方式来划分子类型——例如,煎蛋、炒蛋、水煮蛋。这些类可以供阅读者用来理解该类的文字定义,以及它的同义词和与其他类的关系。例如,“hen egg”源自“hen”。

同义词有助于理解本体类表示的事物的不同表示方式,在生命科学领域中,它可以用于指代基因的不同方式,如PSEN1,它也可以是 PSNL1 Presenilin-1

随着世界飞速发展,我们的理解也在不断更新,本体则致力于在一个特定领域中为人们创造一种共识。

存在于生物医学领域的许多本体都是公开的,例如人类表型本体 (HPO) 或基因本体 (GO)。因此,如果确定了 PSEN1 的新同义词,遗传学家就会更新本体,并将其进行关联与合并。

在生命科学领域,专业知识是必不可少的,人类生物学远比所谓的鸡蛋类比复杂得多。生物医学本体将为药物发现和算法提供动力,这些算法将对患者所用的药物做出重要决定,因此它们的准确性至关重要。

大数据时代本体 

如何应用于科学数据管理 

目前,生命科学企业面临着两大挑战:科学管理遗留数据,并确保生成的新数据也是可管理的。

使用特定领域的本体管理数据,有助于通过更FAIR ”的方式来克服这些挑战。 

非结构化遗留数据给企业带来了持续的经济支出,更会拉长战线,使企业错失良机。大量时间浪费在搜索和清理数据,这种生产力损失会推迟上市时间并降低投资回报率。

此外,当一条信息没有注释和被编辑时,其潜在的科学价值就难以被获取。在元数据可用的情况下,数据并不总是那么清晰的——通常缺乏跨组织应用的标准或通用术语,这将对科研学者对数据的使用与挖掘造成阻碍。

还有一个更大的难题:与遗留数据相比,新生成的数据通常也并不符合FAIR”的标准。

缺乏数据标准,可能导致高达 85% 的研究无效化。确保数据“从一开始就被科学地管理起来”,对于企业防止新生数据变成遗留数据来说至关重要。

例如,输入电子笔记本 (ELN) 的数据通常是自由文本,这使得这些数据集在未来很难搜索。对于此情况,一种解决方案是智能数据输入,科学家在输入分析信息时使用例如本体驱动的类型,以便在输入点使用本体对数据进行规范化。

本体提供具有关联名称和同义词的唯一标识符,这有助于科学语言的规范化,使用这些标识符标记数据让科学家更容易进行搜索和分析,因为它的结果包含本体识别的相关同义词或相关术语。此外,由于本体是公认的社区模型,数据呈现方式更容易被理解,这也减少了竞争术语的使用。

最重要的是,本体论确保了数据是机器可识别的,将它们与人工智能和机器学习相协调以进行分析。借助本体中结构化的数据,企业可以确保他们的算法正在从信息的全貌中学习,从而降低错误风险,并提高结果的准确性。

古老文献与现代科学的结合

事实上,在正确的专业知识的帮助下,本体可以应用于任何遗留数据,在这里有一个实例:

如今,中医药受到越来越多的关注,其国内价值预计到 2025 年将增至 1070 亿美元;另一方面,中医药领域的古代文献具有大量的拼写、同义词、翻译和符号,同一种药物拥有多种指代方式,这对该领域的研发来说是一个极大的挑战。

某项目组标记了有关传统中医 (TCM) 的文本,并利用专业知识构建本体,将化合物的繁体中文名和现代英文名称关联起来,使研究人员能够了解特定中药化合物的成分,从而为科学家们在现代生物医学领域开辟新的资源。

该本体使成百上千的古代文献与数据被科学地管理起来,并被用于算法中;通过算法,研究人员利用古代药物的知识开发出了新的药物。【点击下载原文,看传统中医如何在现代科学的指导下发挥作用】

用这样的例子,我们证明了本体论不仅能提高生产力,同时对药物开发起到了重大影响。

FAIR data对人工智能的影响

如果一家企业或机构想要通过使用人工智能,以求对精准治疗实现突破,那么数据管理将会为其带来极大收益:通过处理整合数据,企业的研发速度将会得到飞升,更重要的是,这还会推动企业的商业价值:欧盟估算,缺乏系统管理的科学数据(FAIR data)每年所带来的损失超102亿欧元。通过对数据的科学管理,可以使每条数据都带来更大的价值,实现更快、更详细的分析,大幅提高企业生产力。

而对于患者而言(他们其实才是这个链条中最重要的利益相关者),随着数据管理带来的科研效率提升,他们也将获得新的靶向疗法与更好的结果。

可以看到,本体论是带来这种转变的核心:对数据源进行标准化的协调,同时关联相关内容,使数据去孤岛化,从而将繁杂的文本与图像转化为可视化的数据。

 助力科学数据管理 

Elsevier在行动 

可以预见,随着越来越多的AI工具被运用到不同的领域,多源数据的集成与运用也必将成为未来的主导,如何更好地管理与开发科学数据,是每家企业的必修课。

基于强大的内容数据库,通过将科技文献与专利中的科学数据进行整理并深度清洗,Elsevier已与各个领域的多家头部企业达成了深度合作。

Elsevier能提供监管数据的分类获取与数据清洗,从原始的文档中找到关键数据,并将其提取分类,以得出可轻松检索的、结构化的、高质量的监管数据。

此外,Elsevier还能对关键数据进行语义关联:将数据库中提取的内容进行词表标准化处理,通过AI语义分析,并由专业人员进行人工的语义关联;关联范围囊括了所有细分场景,大大提升了科研人员在研发中对数据的利用效率。

AI领域,Elsevier也提供了可靠的解决方案。

以生物医药为例,Elsevier所提供的服务涵盖了药物研发的整个生命周期;合成线路数据获取、活性数据的获取、基于深度神经网络算法的逆合成模型、BBB机器学习模型、确定可再利用的罕见病候选分子、挖掘文献中的生物关系,以及结构设计时的MMP分析、Building Block分析都是Elsevier能提供的服务。

作为信息和分析领域的全球领导者,爱思唯尔致力于为全球科研及医疗生态圈提供关键性的,有洞察力的决策。我们希望,通过系统化地处理后,未来的科学数据将能真正的实现FAIR”,这也是Elsevier正在做的事。

转自:爱思唯尔科研医学服务”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com