五大顶级学者的AlphaFold 2论道:破译结构、开源代码后的产研「大变局」(下篇)
过去半个月,Alphafold2先后两次沸腾了整个学术圈。
一边是“AI界年度十大突破”AlphaFold2终于开源,登上Nature;
另一边DeepMind又发布,堪比人类基因组图谱的,最完整人类蛋白质结构数据库。
对自家的“王者级成果”,DeepMind联合创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)也自豪表示:“这是迄今为止AI在推动科学进步方面做出的最大贡献,我觉得这么说一点儿也不夸张。”
但事实真是如此吗?
爆火的AlphaFold2是否被期望过高?后AlphaFold2时代,蛋白质结构领域是否会出现学术研究的“军备竞赛”?AlphaFold2代码开源,是否为各大药企和AI制药企业创造了一次最佳的超车机会?备受期待的AlphaFold2数据库,是否会成为专家们打开蛋白质功能奥秘的金钥匙?
近日,主题为“权威专家再谈AlphaFold 2:AI是否会带来结构生物学的「大革命」?”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会(ISICDM)主办,雷锋网、医健AI掘金志协办。
印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持,密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授,中科院计算机所研究员卜东波教授共同参与了讨论。
在《五大顶级学者的AlphaFold2论道:破译结构、开源代码后的产研「大变局」(上篇)》中,几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义;
在下篇中,将着重分析AlphaFold2数据集,这一重磅成果实际的科研价值,以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。
作为本次论坛的主办方,图像计算与数字医学国际研讨会(ISICDM)自2017年创办以来,一直是医工交叉的前沿阵地,围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论,旨在促进电子信息(包括计算机、自动化与生物医学工程)、数学和医学等领域学者的交流与合作,截止至今,ISICDM共邀请到400余位大会报告及专题报告嘉宾。
以下是主题论坛的现场内容,雷锋网《医健AI掘金志》做了不改变原意的编辑和整理:
黄昆(主持人):Alphafold2现在开放了源代码,也开放了模型预测部分,制药巨头是否可能会复现这些过程?是否会对AI初创企业造成较大冲击?
许东: 据说DeepMind本来想把Alpha fold2变成一种商业模式,但因为David Baker复现并开源了类似成果,所以他们才选择开源,不过这只是一种说法。
我觉得药企复现这些过程,商机可能不大,因为他们很难超越Alphafold2模型,也无法创造更大知名度,小公司要复现就更加困难。
但现在有很多与结构交叉的AI创业公司,以生物制药为例,通过结构做分子设计,在中国、美国都非常活跃,确实有不少商机。
许锦波:刚好这几天,我就正在与一个小公司讨论Alpha fold2复现问题。
他们表示,自己在David Baker之前就已经复现,他们买了16个GPU,重新写了训练代码,最后得出结果比Alpha fold 2稍微差一点。
所以从算法优化或算法简化着手,十几个GPU,几个工程师没准真能复现出Alpha fold2,尽管结果会差一点,但不会差太多。
黄昆(主持人):Baker的3-track逐级结构约束,还有价值吗?
张阳: Baker这篇论文因为和AlphaFold2一起出来,媒体给了很大关注。
首先,这篇论文是独立的, 虽然受到AlphaFold2启发,但他们的程序在AlphaFold2代码公布之前,就已经完成,不过算法精度要比后者差一些。
其次,他们的最终模型结构不是端到端, 我认为这是AlphaFold2的一个精髓。
Baker实验室虽然也实现了部分端到端模型,但结果甚至还比不上,利用距离和接触约束的传统算法,这可能还是算力问题,Baker文章也提到过。
至于3-track算法,我也作过一个基准测试,结果要比论文中差一些,不过要比CASP14上,除了AlphaFold2其他组稍微好一些,我认为这种算法显然代表了一种进步。
但从方法学角度,端到端预测更能代表蛋白质结构预测的发展方向。
黄昆(主持人):蛋白质结构预测仅仅是蛋白质折叠的一个子问题,物化知识在折叠问题研究可能才刚刚开始?force filed和simulation应该是否会有较大研究价值?
许东:自己读博士的时候,每天都在做force filed和模拟。
机器学习其实并不代表物理过程,物理过程是通过force filed的力场来驱动和折叠,折叠过程特别复杂。
而且物理和机器学习模式之间有很大的鸿沟,大家也在探讨有没有可能通过大数据方式回归物理模式,把二者联系起来。
但蛋白质比物理要复杂,我们的图神经网络是模拟氨基酸之间相互作用,通过图神经网络记录物理过程,并不是真实的物理过程,而是尽量接近物理过程,理解物理问题。
所以,我认为继续过程对force filed和simulation,可能会产生比较大的应用价值,但在蛋白质上可能需要很长时间理解,开发更好的工具。
卜东波:做模拟前会有一个很大的障碍,就是我们目前还没有标准答案。
刚才许东教授介绍的真实物理过程,因为折叠太快,现在还无法可以知道折叠中间态,而即使是使用深度学习,我们也首先需要具备标签和正确答案。
和simulation相比,蛋白质结构预测有X-ray、冷冻电镜做的结构作为标准答案,所以更加容易,但折叠过程,没有真实物理过程做标准答案,对AI训练和验证都是非常大的阻碍。
黄昆(主持人):联想起二十年前structure genomics project(结构基因组学项目)的无果而终,AlphaFold2数据库会不会成为一个科技泡沫?
张阳: “科技泡沫”是个值得注意的现象,很多科学热点开始被人们寄予厚望,最终发现是一场泡沫,这样的例子很多很多。
回答这个问题之前,我先介绍一下AlphaFold2数据库。
上个月,Deepmind接连在Nature上发表了两篇论文:第一篇论文,关于AlphaFold2的算法,这是很重要的一篇论文;
第二篇论文,把AlphaFold2程序应用到人体基因组,把人体基因组表达的所有蛋白质结构,都用AlphaFold2预测出来。
DeepMind接下来计划把这项工作推广到其它20种关键生物体中,把目前已知的1亿多条蛋白质结构都预测出来,构建成一个数据库,和全球科学家免费共享。
他们设想有了这个数据库之后,生物学家只要有新蛋白质就可以立马找到,并利用AlphaFold2预测结构。
这个成绩对于外行来说,可能特别激动人心,甚至DeepMindCEO也表示,这将是他科研生涯最重要的一项成就。
但我认为第二篇Nature论文,以及结构数据库概念,对生物医学的影响会远远小于第一篇AlphaFold2算法论文。
第一,基因组结构预测数据库想法并不新颖。 AlphaFold2之前,就有很多人做基因组蛋白质结构预测数据库。
其中最知名的就是Andrej Sali教授的ModBase结构数据库,他们对UniProt里600万序列都作了结构预测,包含3000万个结构模型;其次还有Torsten Schwede教授的Swiss-Model数据库,里面包含200多万结构模型。
此外,Jeffrey Skolnick教授和我在15年前,也建立了一个人体基因所有G蛋白受体(GPCR)的结构模型数据库。
以上这些数据库现在大家还都在引用,但他们的影响力远不及后来组建的在线服务器。
所以我认为,与传统结构数据库相比,AlphaFold2数据库的实际亮点应该是精度,特别是对非同源序列的精度,是目前为止最为精确的结构模型数据库。
此外,AlphaFold2数据库也有几个重要的局限:
第一,提供的只是预测结果, 这些模型有效性,最终还需要实验验证和支持;
第二,很多蛋白质都会发生变异, 而且因为翻译、修饰原因,给定一个未知蛋白,很少能在现有数据库,找到一模一样的序列。
因此,很多生物学家可能还会依赖在线服务器,来提供高精度蛋白质结构预测。
第三,AlphaFold2数据库不能提供功能性注解, 虽然能提供三维结构预测,但它不能告诉蛋白质在细胞里做什么,而对蛋白质进行功能性注解,其实是结构生物学家解析蛋白质结构的最主要价值。
接下来,再谈谈20年前的知名项目——Structural Genomics,这个项目和现在AlphaFold2数据库有一些共同之处。
大家当时做蛋白质结构预测主要通过同源建模:对于未知蛋白质,如果和它同源的蛋白质结构被实验解出来,那就可以用同源建模方法,构建非常精确的模型。
但这种方法,当时面临一个问题,很多蛋白质没有并同源实验结构。
所以Structural Genomics项目,就是把计算机同源模建和结构生物学实验技术结合,把所有基因数据库结构确定下来。
为了解决这个问题,人们已经把自然界发现的蛋白质序列,按照进化关系分成很多同源家族。对于一个家族,只要一个成员结构已知,该家族其他成员结构也都可以通过同源建模确定。
所以这个项目计划:第一,找出哪些家族未知;第二,每个家族挑出一个成员,用结构生物学实验将它结构解析出来。
如果这个想法实现,那今后10年或20年内,所有人体包括自然界蛋白质结构,都可以用同源建模方法预测出来,这在当时是个很激动人心的想法,最早提出是上个世纪末,开始实现是2000年。
当时NIGMS(美国国家卫生院的基础医学研究所)在资金比较紧缺情况下,第一个五年计划就投资了2.7亿美元建Protein Structure Initiative(PSI)。2005年,又追加了3.25亿美元,总投资7.6亿美元左右。
但最终结果并不理想。许多蛋白质虽然把结构解出来,但没有功能性研究,相关论文也没办法发表,一般结构生物学论文,虽然都解结构,但更重要是从结构里学生物知识。
所以2010年以后,这个项目就失去了意义,到2015年正式项目终止。
新一代学生甚至有很多都不知道Structure Genomics这个项目的存在,很大程度上来看, 2000年的一个美好愿景,最后变成了一场泡沫。
尽管现在媒体大量宣传AlphaFold2结构数据库,最终会对这个领域产生多大影响,我个人还是持谨慎态度。
许东:
我补充一点,泡沫可能有两个层面。
第一,投资得不到回报, 前期政府投了很多钱,最终产出远不尽人意,这是一种泡沫,但这个问题目前还不存在。
因为除了DeepMind,还没有其他小公司去投入大量精力,做这个模型,而且也没有人表示,要去PK DeepMind。
第二种泡沫,未来的预期远高于结果。 大家仔细读读DeepMind的文章,他们把哪些预测准,或不准都已经写出来了。
但现在很多人的预期有一些超前了,认为AlphaFold2对所有蛋白、所有情况都预测很准,这可能还需要交流,但我觉得这不会导致资源大量浪费的那种泡沫。
许锦波: 我补充一点,结构基因组学不是完全浪费,它给我们提供了大量训练数据,不然就没有这些机器学习模型。
首先,要感谢产生结构数据的实验生物学家,还有做大规模基因测序的学者,他们产生了大量数据,加快了研发速度。
结构预测现在宣传有一些过头,其实还有很多问题都没有解决。一些生物学家,仔细分析了现在的结构预测结果也都很失望,因为有些结构预测结果还是一团乱麻,达不到生物学的要求。
黄昆(主持人):如果想实现复现训练,Alpha fold2的35万高质性回炉准样序列,以及MSA和template准备训练集,千万元量级算力,会不会是一个很高的门槛?
许东: 这肯定是一个大工程问题。
把模型训练到极致需要一个很强大的团队,DeepMind这篇文章,第一作者就将近20人。他们的人力并非小实验室,或一般学术实验室能够比拟。
而且他们在算力和数据等各方面,也要比一般学术实验室强很多。不仅是Alpha fold2,各种大工程问题都需要大研究所或大公司。
所以我觉得,Alphafold2的问题现在已经做到一定量级,小实验室不应该想着如何在数据打败他们,更应该寻找新创新点。
而且并非Alphafold2后,就没有事情可做,也并非大家都要和Alpha fold在算力和大数据方面死磕。
张阳: 我再列举一个具体案例。我们许多人都已经知道AlphFold2的算法,拿到了源代码,但大家如果真复现它的成绩,往往会面临很严重算力问题。
Alphafold2用了128个顶级GPU,并行训练了7天,才达到这个模拟精度,但大多数实验室都没有这样的算力,甚至很多实验室一个GPU都没有。
如果全部在一个GPU训练Alpha fold2就需要1000天,而且还是在已知答案前提下,不包括很多试错、调参、测试时间。
模型开发真正耗费算力就是反复试错和不断探索过程,这个过程往往需要单个训练几百到上千倍的时间,相当于在黑暗当中探索。
所以对Alphafold2这样成绩的复现,将是一个巨大的算力考验。任何一家学术实验室都很难完成这样的大规模数据训练、测试,所以在硬件要求上门槛很高。
黄昆(主持人):AlphaFold2用来预测Loop区域有多大的可信度?
张阳: 单独来讲,Loop区域本身并没有很稳定的结构,它的构型依赖于与周边结构的相互作用。
所以,Loop结构预测精度很大程度依赖于,其它有规则二级机构区域模型的精度,其中就包括Loop两端距离是否适合等因素。
目前,AlphaFold2的loop精度应该比其它算法精度高一些,但这是因为它们在有规则二级机构的核心区域预测精度比较高。当把中心骨架结构都预测好之后,再把Loop搭起来,精度就会比较好一些。
黄昆(主持人):请问各位专家团队后续有什么样的计划?是否会继续提升现有模型的蛋白质预测精度?还是会借助AlphaFold2在其他方向做突破?
许东: 我过去做了十几年蛋白质结构核心开发,从2012年开始,我就集中在深度学习在生物信息学中应用。
我们后续的计划主要有三方面:
第一,蛋白相互作用, 例如蛋白对接,怎么利用深度学习选择更好的对接结构,相关文章目前已经出来,后面还要用更好的方式把蛋白相互作用预测出来。
第二,免疫和疫苗设计, 这些方面有很大意义,我们在做单细胞数据的时候,能看到抗原决定部位上不同氨基酸,也能看到抗原上不同多肽序列在结构上怎么去发挥作用。怎么设计更好的疫苗,将是我们接下来的工作。
第三,用医学方法来提取动力学信息 ,更好表示出分子动力学的不同模式。
除了蛋白结构相关,我们还会做机器学习在单细胞数据应用,例如,受体与配体相互作用,在单细胞层面或空间层面,通过结构方式理解单细胞数据。
张阳: 我们目前主要是想做和蛋白质结构相关的两件事:
第一,把深度学习推广到蛋白-蛋白复合体结构预测 ,这个问题比单链蛋白质结构预测更复杂,从功能注解来讲也更重要。
第二,把深度学习和结构生物学技术相结合, 建立一种大标度利用低精度实验数据,快速确定高精度蛋白结构的计算方法。
传统的NMR和X-ray,以及现在的cryo-EM,对实验精度有很多限制,很多实验数据虽然已经产生,但三维结构并没有解析出来。有些实验数据辅助的结构预测,往往比单纯基于序列结构预测要精确很多,而且又可以帮助传统结构生物学实验快速确定结构。目前,这个问题并没有引起足够重视,是一个很重要的研究方向。
卜东波: 刚才谈到的AlphaFold2是三合一。我们目前独立做的ProFOLD就是把前两个结合到一起,后面从距离构建结构还是独立的,现在我们逐渐开始把后面补齐。此外,我们也在尝试复现AlphaFold2的过程。
关于将来的方向,我觉得有三点:
第一,单序列预测, 我非常赞同锦波教授的意见,在生物体内部,蛋白从转录到翻译都不参考MSA,折叠过程是非常重要的理论性问题。
AlphaFold2论文中也明确说MSA条数少于30条时预测不是特别准,所以我觉得可以尝试做单序列预测。
第二,糖蛋白预测, 刚才许东老师谈过很多蛋白都有糖基化,尤其是新冠病毒的S蛋白上有22个N糖的糖基化位点。
目前,我们已经和生物物理所合作开展了一些湿实验,这些糖非常大,有显著的空间位阻效应,有些位点长糖之后,就会导致蛋白质结构和ACE2结合位点变化特别大;而且SPR实验显示,他们的结合能变化也非常大。
还有很关键一点,用冷冻电镜测结构时,事先要把糖弄掉,因为糖会导致信号非常不稳定,做糖蛋白结构很重要,我们和生物物理所实验也会做结构预测。
第三,蛋白质设计, 例如张海仓教授和寒武纪公司合作的ProDESIGN项目。
黄昆(主持人): 谢谢各位,我自己不是做蛋白结构领域的,但我现在非常期待怎样把新结果应用在其中。例如直接做突变功能预测,突变对结构影响预测都比较感兴趣,虽然不一定100%都准确,但比现有一些结构数据或预测数据库要准确很多。
接下来,怎么样利用数据和其它数据结合在一起,例如和其他基因表达、蛋白表达数据结合在一起做系统生物学模型,尤其对疾病进行预测都是我们很关注的重点。今天非常感谢4位嘉宾做的精彩点评,同时也谢谢各位听众。 雷锋网 (公众号:雷锋网) 雷锋网
。