投稿问答最小化  关闭

万维书刊APP下载

上海交通大学杨旸团队JCIM | 基于两层次图相似性的分子表征学习新方法

2023/1/13 14:27:11  阅读:142 发布者:

英文原题:

ReLMole: Molecular Representation Learning Based on Two-Level Graph Similarities

通讯作者: 杨旸,上海交通大学

作者: Zewei Ji, Runhan Shi, Jiarui Lu, Fang Li

背景介绍

分子表征是许多分子预测任务和药物设计的关键。分子结构式是一种典型的图数据,因此通常使用图神经网络(GNN)从分子图中提取表征。在医学、化学等领域的具体任务中,受限于湿实验成本等因素,有标注数据量一般不多。为了更好地发挥GNN的性能,近年来的研究聚焦于自监督预训练,用大规模无标注数据来驱动分子表征学习。这些GNN预训练任务的设计,主要从通用图的角度出发,并未充分考虑分子图数据的特性,导致在分子相关下游任务上提升有限。

文章亮点

20221027日,上海交通大学杨旸团队在化学信息学和人工智能研究领域的国际权威学术期刊"Journal of Chemical Information and Modeling"上发表了题为“ReLMole: Molecular Representation Learning Based on Two-Level Graph Similarities”的研究论文,提出了基于两层次图相似性的分子表征学习方法ReLMole。该研究提出了新的官能团划分算法,用于构建官能团层次的分子图,来驱动模型学习官能团知识,并设计了基于两个层次分子相似度的对比学习任务,使得编码器通过预训练学到的分子表征在隐空间中的分布与其结构和功能信息相关联。

杨旸课题组通过引入新的官能团层次分子图以帮助 GNN 更好地提取官能团信息。他们基于化学领域知识,设计了官能团划分算法。该算法从环状子结构和功能性原子出发,可识别出任意分子中的官能团并对每个分子图实现完全拆解,然后以划分出的各个子结构作为结点,构建出分子的官能团图。该图和以原子作为节点的结构式,即原子图,共同组成了层次化分子图表示。该模型从粗、细两个粒度对分子进行图建模,分别描述了分子的功能和结构信息。之后他们搭建了层次化 GNN 编码器,将两个层次的图作为输入,按照原子-官能团-分子的顺序依次提取节点和分子图表征。该方法显式地将官能团知识注入到模型中,使得分子表征学习更多关注分子的结构和化学特性。

该工作进而针对分子数据提出了基于两个层次相似度的对比学习方法,利用大量无标注数据进行自监督预训练。不同于基于图数据增强的对比学习,ReLMole 根据两分子的相似度来生成一对训练数据的伪标签,避免了数据增强方法因改变图结构带来的性质变化和违背化学规律等问题。在生成分子对的伪标签时,他们考虑了原子和官能团两个层次的相似度:对于原子层次,通过两分子指纹的谷本系数(Tanimoto similarity),来判断它们是否结构相似;对于官能团层次,通过两分子的官能团词向量的余弦相似度,来判断它们是否功能相似。当分子在两个层次的相似度均高于阈值时,则标注为正样本,反之为负样本。该预训练任务促使 GNN 的隐空间中分子表征的分布与分子结构及所含官能团相关联。

该研究在预测分子性质和药物-药物相互作用(DDI)两种下游任务上验证了 ReLMole 的性能。对于分子性质预测任务,ReLMole 在六个数据集上的ROC-AUC比现有方法提升了2.6%以上。在官能团数量较多的数据集上,该方法的表现较好,说明官能团图的引入能帮助GNN更好地学习分子性质。在 DDI 预测任务上,尤其是针对新药物时,ReLMole 能带来7%以上的 F1 提升。ReLMole 在设计预训练任务时从分子图数据的特点出发,使得所学到的分子表征相比其他预训练模型在化合物分子相关下游任务上展现出更强的泛化和迁移能力。后续的消融实验和可视化分析结果也证实了使用两个层次的分子图模型和基于分子相似度的对比学习预训练对于分子表征学习的贡献。

转自:ACS美国化学会”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com