很适用,阿斯利康对 IBM 有机反应分类机器学习方法的验证
公众号/ ScienceAI(ID:Philosophyai)
作者/凯霞
化学反应是将反应物转化为一种或多种产物的过程。化学反应可以分为几类,但在大范围内确定一个特定反应属于哪一类并非易事。了解并能够对化学反应进行分类是化学中有效交流的基础。
今年 1 月 28 日,IBM 研究院 Schwaller 等人提出了一种能够自动分类这些有机化学反应的机器学习方法。
现在,来自阿斯利康的研究人员展示了将这些模型和方法应用于阿斯利康电子实验室笔记本 (AZ-ELN) 的反应子集的结果。
该研究以「Reusability report: Learning the language of synthetic methods used in medicinal chemistry」 为题,于 7 月 5 日发表在《Nature Machine Intelligence》杂志上。
在之前的研究中,Schwaller 等人展示了 Transformer 模型如何从存储为文本的条目中对反应进行分类,并举例说明了如何将结果表示用作反应指纹(rxnfp)。
研究表明基于 Transformer 的模型可以从没有注释的化学反应文本表示构成的大型数据库中推断反应类别。该模型通过使用无监督学习来构建反应空间,从而可以使用有限的标记数据来构建准确的反应分类器。
图示:BERT 反应分类模型。(来源:nature)
论文的主要作者 Schwaller 表示,他们的 BERT 模型所学习的表示形式可以用作反应指纹。他们利用这一点创建了一个交互式反应图集,对化学反应进行视化聚类,增强了可解释性。
可重复性证明
数据集
通过作者 GitHub 页面访问了 rxnfp 存储库。发现重现工作所需的代码以 Jupyter Notebooks 的格式进行了很好的描述和组织。根据 readme 文件中的信息,可以轻松创建功能性 conda 环境。
研究人员选择了 AZ-ELN 在 2008 年至 2017 年期间进行的反应。这些数据经过过滤,只包括涉及单一产品的成功一步反应,并使用 NameRxn3 进行标记。最终得到了一个包含 167,700 个反应的 AZ-ELN 数据集,涵盖 24 个独特的类和 111 个子类。
使用 rxnfp 对 AZ-ELN 反应进行分类
为了评估方法对 AZ-ELN 数据进行分类的效用,阿斯利康研究人员使用原始论文中分布的三个预训练 Transformer 模型计算连续嵌入:仅预训练(以无监督方式在 Pistachio 集上训练)、rxnfp (PST) 和 rxnfp (SCH10k)(使用分类模型在 Schneider 集的 10k 子集上训练)。
训练逻辑分类模型以预测这些子集上的反应类(24 个端点)和反应子类(111 个端点),并在测试集上评估它们的性能。研究发现所有反应类和子类都可在表 1 中找到。
表1:反应类和子类。
研究表明:即使只有 10, 000 个训练示例,「rxnfp (PST)」嵌入获得了出色的结果。「rxnfp (SCH10k)」模型的性能更差,尤其是对于更困难的子类问题,尽管使用 50, 000 个训练示例,也取得了类似的结果。「仅预训练」模型表现出明显更差的性能,尤其是在训练样本数量较少的情况下。这表明了监督微调在组织任务相关信息方面的附加价值。
尽管如此,使用「仅预训练」嵌入的分类器在 50, 000 个训练示例中获得了总体 F1 分数 > 0.8,表明某些信息仍然以无监督的方式学习,这与 Schwaller 等人报告的结果一致。
图示:rxnfp 分类器在 AZ-ELN 数据上的性能。(来源:论文)
最后,通过修改输入文本表示来评估 rxnfp (PST) 模型的鲁棒性。也就是说,生成了每个反应的替代版本,其中一种反应物或产物被替换为不同的非标准化 SMILES 字符串。这些新字符串的嵌入是使用原始 rxnfp (PST) 模型计算的,并且在没有 ( -> random ) 或在对扰动嵌入 ( + random ) 进行再训练的情况下评估了分类器识别这些扰动反应的类别和子类的能力。
总结和未来方向
研究证明了 Schwaller 等人开发的基于 Transformer 的方法,能够生成 AZ-ELN 反应的文本表示的连续嵌入,并且这些嵌入适用于训练反应类和子类标签的准确分类器。尽管纯粹的无监督标签能够以 > 80% 的准确度训练分类器,但微调标记分类数据上的嵌入可以显着提高保留数据上近乎完美的准确度。
利用连续嵌入将 AZ-ELN 数据与 Schneider 数据集的数据进行比较,发现反应超类的嵌入在所有集合中具有可比性,这与在这些数据集上训练的嵌入产生准确线性分类器的能力一致。
总之,Schwaller 等人提出的反应嵌入方法。对 AZ-ELN 数据有明显的适用性,支持使用自然语言工具(如 Transformer)对反应数据进行自动分析。这种方法可以扩展为反应的定量比较提供一个框架。
阿斯利康研究人员表示:「为此,我们内部已经采用了反应图谱,为药物设计人员提供了一个有用的工具。」
论文链接:https://www.nature.com/articles/s42256-021-00367-2
项目地址:https://rxn4chemistry.github.io/rxnfp/
参考内容:https://www.nature.com/articles/s42256-020-00284-w
https://mp.weixin.qq.com/s/H5A4rRKowxrhOD386M6fYA