化合物可合成性预测工具的综合评估
2023/3/17 14:40:44 阅读:306 发布者:
以下文章来源于药研小木子 ,作者jimzz
现代计算机辅助合成预测工具为药物的合成提供了重要的技术支持,虽然它们仍然受到计算复杂度的限制,但是通过合成难易程度的评估可以帮助药物化学家优先考虑那些较为容易合成的概念分子。最近来自波兰的研究者们对四种合成难易程度预测工具的精度进行了综合评估,这些工具包括:SAscore、SYBA、SCScore, 和RAscore。
分析表明,大多数情况下,合成可及性分数能够很好地区分合成可行分子和不可行分子,可以成为逆合成规划工具的潜在助推器。此外,混合机器学习和基于人类直觉的综合可达性评分可以有效地提高计算机辅助逆合成规划的有效性。
工具介绍
SAscore
SAscore作为类药分子的合成可及性评分工具,可以用于高通量的虚拟筛选。它通过计算片段得分和复杂度惩罚和来对合成难易度进行评分。片段得分的目的是捕获数据库中先前观察到的片段是否存在于分析分子中。复杂度惩罚旨在捕获一个分子不包含太多待合成的复杂结构。它包括芳香环的数目、立体中心、大环或分子的大小,评分依据是根据PubChem数据库统计 Morgan 指纹而获得。SAscore的取值范围为1 (易于合成)到10 (很难合成)。该工具已经整合在RDKit包中开源使用。
Drug R&D | 药物分子可合成性分析
SYBA
SYBA评分的基本思想是训练一个模型来综合表征现有的、容易合成的化合物和不存在的、难以合成的化合物。前一组从ZINC15数据库中随机化,后一组由Nonpher通过输入可合成分子的原子或键的添加/移除的迭代扰动结构创建,达到预先设定的复杂度阈值。SYBA是在两个集合上训练的伯努利朴素贝叶斯分类器。
访问地址:https://github.com/lich-uct/syba
SCScore
SCScore是用于评估产生目标化合物所需的预期反应步骤的复杂程度。Tis评分在Reaxys数据库中获得的1200万个反应的集合上使用神经网络进行训练。该分数的分子表示为半径为2的1024位摩尔根指纹,一般类似于ECFP4。其值从1 (简单分子)到5 (复杂分子)。
访问地址:https://github.com/connorcoley/scscore
RAscore
RAscore被设计为逆合成可及性评分。它在ChEMBL的20多万个分子上进行训练。对于每个分子,使用AiZynthFinder(一款开源的逆合成分析工具)生成一条合成路线,以评估该分子是否可合成。该工具基于机器学习,整合了神经网络和梯度提升机。
访问地址:https://github.com/reymond-group/RAscore
精度评估
首先是评估这些工具区分易合成和难合成化合物的特异性和灵敏度,图1位四个工具的受试者特征曲线,分析表明SAscore具有最高的AUC值为0.90,预测精度为0.81,RAscore的AUC为0.85,精度为0.81,这两个工具在区分化合物合成难易程度和预测精度上都具有较高的准确度。而相比之下SCScore和SYBA的性能则要逊色很多。SAscore这种通过片段评分点方法的区分灵敏度上比基于机器学习的其他三个工具都要好。
研究者们还检验了合成可及性得分是否可以反应逆合成规划的复杂性。我们计算了目标化合物得分与其搜索树复杂度参数之间的Spearman排序相关性,如树宽、节点数和未求解叶子节点数。结果表明,至少有一个节点聚集统计量的RAscore、SAscore和SCScore均与所有复杂度参数呈显著性小于0.04的负相关。相反,SYBA与任何复杂度参数都不相关。类似地,RAscore和SAscore表现最好,这两个得分与节点数之间的负相关性最强。
此外,研究者还分析了这些工具在逆合成分析中区分内部节点的合成性问题的解决与未解决的能力,数据表明SAscore具备优秀的区分能力和预测精度。
综上,这些工具中SAscore表现最为优异,而基于机器学习的预测工具则相对性能较差,仅RAscore具备良好的预测性能。ML模型可能会过度拟合训练数据集的特定属性,而这些属性似乎是不平衡或有偏的。也许混合ML和基于人类直觉的综合可达性评分以及精心构建的逆合成规划算法仍然可以有效地提高预测精度。这些工具既有助于发现新设计化合物的合成路线,也有助于认识化学中未知的东西。
转自:“叮当学术”微信公众号
如有侵权,请联系本站删除!