投稿问答最小化  关闭

万维书刊APP下载

综述 | 化学指纹的全面概述及其在苗头和先导化合物筛查中的应用

2023/1/16 10:40:30  阅读:200 发布者:

以下文章来源于AIDD Pro ,作者一九域

今天介绍的是哈尔滨医科大学陈秀杰团队在Drug Discovery Today发表的综述文章:Concepts and applications of chemical fingerprint for hit and lead screening》。化学表征的选择直接影响到高通量筛选(HTS)的准确性和应用范围,在本文中,作者总结了目前常用的分子指纹的特点和应用,为药物研发中选择合适的化合物(或配体-蛋白质复合物)指纹提供了指导。

研究背景

指纹是一种常见的分子表示形式,它将分子编码为一系列的比特串(比特向量),可用于构建机器学习(ML)和定量构效关系(QSAR)模型。

分子指纹通常具有以下特征:

能够表示分子的局部结构(每个原子及其邻接信息)

能够有效和简单地组合并代表分子的结构或物理化学性质;

能够从比特向量高效和简单地解码成分子结构;

指纹中的特征相互独立。

由于每种类型的指纹代表一组特定的分子性质,因此不同类型的指纹适用于特定的数据类型、数据集大小、应用范围等。在这篇综述中,作者主要根据它们的特点和应用,总结了常用的分子指纹,以便读者能够为他们的化合物(或配体-蛋白质复合物)选择合适的分子指纹。图1总结了传统指纹和最新指纹的类型和应用。

2.1 基于子结构密钥的指纹

基于子结构密钥的指纹通常使用哈希函数将有序的片段转换为N位字符串,每个特定的比特位代表存在(1)或不存在(0)预定的官能团、子结构或片段。该指纹适用于分子结构特征的比较,并允许在化学数据库中快速过滤和搜索分子结构。

2.2 圆形指纹

圆形指纹通常以化合物中的每个非氢原子或片段为中心,然后根据其特定的预定义规则将分子片段迭代扩展到其邻接结构,直到整个化合物的所有片段被详尽地列举出来(或直到迭代次数达到自定义数字)。与子结构密钥的指纹不同,圆形指纹没有经过预定义,因此圆形指纹通常能捕捉到新的片段。这种动态生成指纹的模式对具有复杂结构的化合物,如对自然产物(NPs)显示出更高的特异性。

2.3 拓扑指纹

化学拓扑性质起源于化学图。分子拓扑表示代表了分子的三维构象和药理活性,对药物研究也很重要。拓扑指数(TIs)用于构建分子的拓扑描述符,它是与具有各种物理性质、化学反应或生物活性的化学结构组成相关的数值,可以编码化学信息和相应的分子图。基于图的分子拓扑指纹有助于解决分子同分异构等问题

2.4 药效团指纹

在过去的几十年里,药效团建模一直是药物研发的关键和成功的方法,并且对分子表征和复杂的生物体系分析具有重要影响。药效团特征代表了配体与大分子受体的相互作用信息,如氢键、电荷转移、静电和疏水相互作用等。所以基于药效团的特征侧重于配体-受体之间的非共价相互作用信息。

2.5 蛋白质-配体相互作用指纹

蛋白质-配体相互作用指纹(PLIFP)通过分析并提取受体和配体之间的结合模式(基于残基的IFP或基于原子的IFP)或受体与配体之间的物理化学特征,来表示蛋白质-配体的相互作用。这种指纹可以利用分子对接或基于结构的实验数据将3D蛋白质-配体相互作用通过特定的计算规则转化为1维位串。基于结合位点的相似性,可以推断相互作用模式的相似性,这有助于从局部结构评估蛋白质-配体之间的结合模式。

2.6 基于形状的指纹

基于形状的指纹是基于与参考配体在形状和构象上的相似性来筛选小分子的有效方法。与其他VS方法相比,基于形状的筛选在某些方面表现出更显著的性能。

2.7 强化指纹

随着化学信息学的进步,对上述提到的经典类型的指纹进行修改,产生了所谓的“强化指纹”。

2.8 多指纹联合

任何单一的化学指纹图谱都无法捕捉化合物(或配体-靶点相互作用)的全部关键结构或性质,但是不同类型描述符的组合会捕获化合物的多个特征,这在某些算法或模型中可以提高活性预测的性能。表1总结了不同指纹算法的特点。

1. 不同指纹的特点

应用

3.1 虚拟筛选

虚拟筛选是药物发现和化学工业中获得苗头和先导化合物的常用方法。VS可分为两大类:基于配体的VS(LBVS)和基于结构的VS(SBVS)(2)

2. LBVSSBVS的比较

LBVS:基于分子相似性的LBVS通常只需要配体相关性质的信息,具有效率高、时间短的优点。各种指纹或物理化学描述符被用来识别与已知具有生物活性的模板分子具有相似/不相似结构或性质的化学分子。其结果取决于各种指纹方法以及它们如何计算化学分子的表示。不同的指纹或描述符根据研究人员关注的特定需求或任务将化学分子转化为矩阵,然后输入到QSARML模型中。

SBVS:与LBVS不同,SBvS主要基于配体-蛋白复合物结合位点的结构,其性能和准确性更高。分子对接和基于几何匹配和能量匹配的计算机辅助配体-蛋白质相互作用自动建模作是目前主流的SBVS方法,但是在HTS和评价配体-蛋白结合亲和力时具有一定的局限性。蛋白质-配体相互作用指纹包含配体和靶标的结构和物理化学信息,如IFPSIFtSPLIF,为快速、自动化地评价蛋白质-配体复合物3D结构的相似性提供了一种替代方法。

3.2 化学空间的多样性评价

化学分子的结构决定了它的性质和生物活性。化学空间的多样性为评价结构多样性提供了一个强有力的概念,它有助于最大限度地扩大生物活性空间覆盖率,并最大限度地减少化学空间,以筛选和识别针对感兴趣目标的化合物。

3.3 判别模型的特征

在大数据时代,AI已被用于各种化学信息学应用,如从头药物设计、物理化学和生物活性预测等。判别模型,如支持向量机(SVM),逻辑回归(LR)和随机森林(RF),用于识别和预测基于化合物相似性度量的特定目标或生物活性。研究人员需要提取化学结构或性质的特征,将分子转化为可适应大规模ML任务的特征矩阵。

3.4 从头开始的分子设计

从头开始的分子设计可以有效地自动生成新的高质量的类药化合物。在设计过程中,选择一个信息丰富且合适的分子表征是一个重要的步骤,它不仅可以从化学结构方面充分捕获所需的生物学特性,还可以对化合物进行优化。

3.5 合成可及性与反应预测

基于ML的反应预测的关键思想是使用反应物、试剂和产物的文本表示来将反应预测视为从一种语言(反应物-试剂)到另一种语言(产品)的机器翻译。因此,各种化学指纹或描述符来表示化学分子并作为模型输入用于训练。

3.6 骨架跃迁

骨架跃迁旨在通过计算机辅助筛选手段或从药物化学角度进行分子骨架替换,以评估生物活性相似性和基于化学类型的多样性。对于骨架跃迁的分子表征范围从分子图(2D方法)到更复杂的3D甚至4D方法。

3.7 其他应用

代谢物鉴定,毒性预测。

未来展望

指纹算法在简单性和表示性之间取得了良好的平衡,可用于以低计算成本提取和表达大规模化学集的特定结构或物理化学特征。然而,尽管有这些优势,目前指纹技术在药物研发应用中还面临着一些挑战:1)用于设计指纹的数据集难获取或质量太低;2) 缺乏标准的一站式管线;3)指纹、模型和指标的选择通常是任意的;4)3D指纹算法欠开发。

文中作者对各描述符的获取方法进行了详细整理,并在应用章节中举例了经典的指纹算法在各应用的贡献,因为篇幅问题,在这里并没有进行举例说明,详细信息可查看原文章。

转自:“叮当学术”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com