新药研发的加速器：MIT研究人员开发机器学习方法，实现分子设计自动化

IT思维 • 6年前扫码分享

公众号/将门创投

来源：MIT News 编译：Kathy

设计新的药物分子需要手工进行，耗时且容易出错。但是麻省理工学院的研究人员已经朝着完全自动化的设计过程向前迈出了一步，这将大大加快设计过程，并获得更好的结果。机器学习模型可以帮助化学家更快地制造出具有更高功效的分子。

新药研发的加速器：MIT研究人员开发机器学习方法，实现分子设计自动化

药物发现依赖于先导化合物的优化。根据先导化合物与特定的生物目标的相互作用，增减官能团，手动调整分子结构来获得新的分子。每个修饰步骤都要耗费大量时间，并且往往得不到期望中的分子。

麻省理工学院计算机科学与人工智能实验室( CSAIL )和电子工程与计算机科学系( EECS )的研究人员开发了一种模型用于更有效的选择先导分子。该模型输入分子结构数据，创建分子图片，详细展示分子结构，节点代表原子，边线代表化学键。这些图又被分解成更小的有效官能团簇，成为“构件”，用于实现更精确的分子重构和修饰。

新药研发的加速器：MIT研究人员开发机器学习方法，实现分子设计自动化

“设计这个模型的目的，是想用自动迭代取代低效的人工分子改造过程，并确保设计出有效的分子，”CSAIL博士生，本文的主要作者Wengong Jin说。该模型在7月份举行的2018国际机器学习会议上进行了展示。论文的共同作者还包括CSAIL和EECS的Delta电子系教授Regina Barzilay和电气工程和计算机科学，数据、系统和社会研究所的Tommi S. Jaakkola教授。

这项研究是麻省理工学院与八家制药公司于五月宣布的药物发现与合成机器学习联盟的其中一部分工作。该联盟将先导物的优化确定为药物发现的一个关键挑战。

Barzilay说:“ 目前来说，需要许多熟练的化学家的大量工作才能实现先导物的优化，而这正是我们想要改进的地方。下一步的计划，是让该技术从学术界走向真正的药物设计实践，并证明它可以帮助人类化学家完成该项工作，而这将是一个挑战。”

Jaakkola说：“程序自动化也为机器学习带来了挑战。通过学习关联、修改和生成分子图推动新的技术思想和方法的产生。”

生成分子图

近年来，分子设计自动化的系统层出不穷，但问题是产生的分子是否有效。Jin说，这些系统通常会产生符合化学规则但实质无效的分子，并且生成的分子不具备最佳性质。这实际上使完全自动化设计分子变得行不通。

这些系统运行在分子的线性符号上，称为“简化分子-输入线-进入系统”（simplified molecular-input line-entry systems， SMILES），其中长串的字母、数字和符号代表可由计算机软件解释的单个原子或化学键。当系统修改一个前导分子时，它会一个符号一个符号地扩展它的字符串表示,一个原子一个原子，一个键一个键,直到生成一个最终的具有更高的期望属性的SMILES字符串。最后，系统可能会生成一个最终的SMILES字符串，虽然在SMILES语法下似乎是有效的，但实质上是无效的分子。

研究人员通过建立一个直接在分子图上运行的模型来解决这个问题，和SMILES字符串不同，该方法可以更有效和准确的修改分子结构。

新药研发的加速器：MIT研究人员开发机器学习方法，实现分子设计自动化

模型的核心是一个定制的可变自动编码器——一个神经网络，它将输入分子“编码”成向量，这个向量是分子结构数据的存储空间，然后将该向量“解码”成与输入分子匹配的图形。

在编码阶段，模型将每个分子图分解成簇或“子图”，每个簇或子图代表一个特定的构建元件。这样的簇是由一个常规的机器学习“树分解”来自动构建的，其中复杂的图被映射成一个簇的树结构，提供了原始的分子图支架。

支架树结构和分子图结构都被编码到它们自己的向量中，其中分子根据相似性被分在一组。使得寻找和修饰分子变得更容易。

在解码阶段，该模型以“由粗到细”的方式重建分子图——逐渐增加低分辨率图像的分辨率以创建更精细的版本。它首先生成树形结构的支架，然后将关联的簇(树中的节点)组装在一起形成一个连贯的分子图。确保重建的分子图是原始结构的精确复制。

新药研发的加速器：MIT研究人员开发机器学习方法，实现分子设计自动化

该模型可以基于期望的性质修改先导分子。通过预测算法，用期望性质的效力值对每个分子进行评分。例如，在这篇论文中，研究人员寻找具有两种性质的分子——高溶解度和可合成性。

对于给定的期望性质，该模型通过使用预测算法来优化先导分子，从而通过编辑分子的官能团来修改向量，从而修改结构，以获得更高的效力分数。重复这个步骤经过多次迭代，直到找到最高的预测效能分数。然后，模型通过编译所有相应的簇，最终从更新的向量中解码出一个修改了结构的新分子。

正确且有效

研究人员在ZINK数据库中的25万个分子图上训练了他们的模型，ZINK数据库是一个可供公众使用的三维分子结构集合。他们对模型进行了任务测试，以产生有效分子并找到最佳前导分子，设计出具有增强能力的新型分子。

在第一次测试中，研究人员的模型从样本分布中产生了100 %的化学有效分子，而SMILES模型从相同分布中只产生43 %的有效分子。

第二项测试包括两项任务。首先，该模型搜索整个分子集合，以找到所需性质的最佳先导分子——溶解性和可合成性。在这项任务中，该模型发现了一种先导分子，其效力性能比传统系统高出30 %。第二项任务是修饰800个分子来获得更高的分子效力性能，但结构类似于先导分子。在此过程中，该模型创造了与先导分子结构非常相似的新分子，且分子平均效力提高了80 %以上。

除了溶解度以外，研究人员接下来的目标是测试模型的更多性质，这些性质与医疗关系更密切。但是这也需要更多的数据。制药公司对能够对抗 生物靶点 的分子特性更感兴趣，但他们掌握的这类数据较少。研究人员面对的挑战是开发一种能够在有限的训练数据下工作的模型。

未参与此项研究的Amgen医药公司的医药化学主管Angel Guzman-Perez说:“论文中描述的算法朝着模仿先导分子优化设计的目标迈出了重要的一步,而这个工作目前是医药化学家在做的。由于这种计算方法在向量空间中进行分子性能优化，它有可能设计出完全不同和新颖的化学结构，这是药物化学家在化学结构空间中考虑问题时所无法企及的。因此，这种算法可以补充和提升药物化学家的工作。”

一些参考

lab: http://mlpds.mit.edu/

ref: https://pubs.acs.org/doi/full/10.1021/acs.accounts.8b00087

paper: https://arxiv.org/pdf/1802.04364.pdf

datasets: http://zinc.docking.org/

Demo：http://askcos.mit.edu/