登上Science：利用预训练的蛋白质语言模型扩展了氨基酸多样性 - IT思维

IT思维 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

公众号/ ScienceAI（ID：Philosophyai）

编辑 | 萝卜皮

蛋白质-蛋白质相互作用的微调通过共同进化自然发生，但这个过程很难在实验室中重现。

斯坦福大学医学院的研究人员描述了一个合成蛋白质-蛋白质共同进化的平台，可以从复杂的文库中分离出匹配的相互作用突变蛋白对。这个协同进化复合物的大型数据集，推动了对 Z 域-亲和体对之间分子识别的系统级分析，涵盖广泛的结构、亲和力、交叉反应性和正交性，并捕获了广泛的协同进化网络。

同时，该团队利用预训练的蛋白质语言模型在计算机中扩展了共同进化网络的氨基酸多样性，预测了实验库无法达到的重塑界面。这些方法的整合为生物技术和合成生物学提供了一种模拟蛋白质共同进化和生成具有不同分子识别特性的蛋白质复合物的方法。

该研究以「Deploying synthetic coevolution and machine learning to engineer protein-protein interactions」为题，于 2023 年 7 月 28 日发布在《Science》。

蛋白质-蛋白质相互作用介导对细胞生理学重要的生物功能。相互作用的蛋白质通过突变采样（主要是在蛋白质-蛋白质界面）共同进化了数千年，以实现所需功能的“最佳匹配”。蛋白质工程方法可以在蛋白质结合位点生成大型氨基酸文库，用于筛选固定序列的其他蛋白质，反映了一半的进化过程。

然而，开发体外系统通过使用“文库对文库”方法来使两种蛋白质相互共同进化一直是一项挑战，这种方法可以恢复匹配的共同进化蛋白质对。用于双向、同步蛋白质-蛋白质共同进化的高效合成系统可以作为模拟自然共同进化的平台。它也可能是一种为生物技术应用设计大量具有不同识别特性的蛋白质-蛋白质复合物的方法。

文库选择问题的关键是在选择过程中离散的相互作用蛋白质对的连接性丧失。斯坦福大学医学院的研究人员开发了一种方法，可以从蛋白质-蛋白质界面两侧的非常大的氨基酸文库中有效回收匹配对。

该解决方案是将蛋白质作为复合物展示在酵母表面。研究人员在该蛋白质复合物的界面内构建了代表约 10 亿个变体的氨基酸文库，并且仅回收了蛋白质复合物。以这种方式，研究人员回收的酵母包含两种突变相互作用蛋白的序列。

应用这种策略，该团队创建了几种类型的共同进化库，表明他们可以恢复数千个界面突变体的相互作用对。突变体复合物表现出多种多样的特异性、正交性和亲和力，并揭示了界面在结构上对突变进行补偿并介导特异性与混杂性的意想不到的方式。有了如此大量的数据，研究人员使用结合相互作用的系统和网络级分析来绘制进化途径和界面进化的热力学基础。

该团队探索了机器学习的潜力，使用大量的共同进化序列对来设计以前未知的接口。

具体来说，研究人员研究了根据现有蛋白质序列的进化历史进行预训练的蛋白质语言模型的嵌入是否可以用于模拟共同进化的蛋白质-蛋白质界面。研究人员的目标是对他们初始文库中不存在的突变以及涉及新氨基酸的复合物，进行计算机预测。通过称为“转移学习”的过程，研究人员能够预测并随后验证原始文库中未包含的氨基酸序列的复合物。这种方法使研究人员能够增加文库的氨基酸多样性，超越酵母展示的实验极限。

总之，合成协同进化平台与机器学习的集成，使研究人员能够以特殊的粒度询问蛋白质-蛋白质相互作用，而且还可以前瞻性地使用这些信息。使用这种方法，可以通过系统级数据深度重新审视蛋白质-蛋白质结合的基本原理。研究人员期望他们的实验协同进化平台和计算之间的协同作用，能够刺激细胞工程应用的发展。

论文链接：https://www.science.org/doi/full/10.1126/science.adh1720