对话天壤XLab负责人苗洪江:如何做一款AI蛋白质设计领域的「EDA软件」?
AlphaFold 近年来展现给世人的惊喜层出不穷,使得向来被称为生物学圣杯的蛋白质折叠问题有了新的解决方法,为整个计算生物领域带来了更大的关注量。
其中,AI蛋白质预测与设计赛道不断吸引着创业者与Meta、腾讯等大厂的加入。
各种算法、模型互相比拼,不断刷新准确度、运行速度与数据库数量。在AI的赋能下,蛋白质结构数据大大增加,使得AI蛋白质从头设计变得可行起来。
相关算法、平台突增,但在追求硬核指标之外,也有其他值得关注之处。
“我们发现,虽然人工智能现在具备了蛋白质从头设计的能力,但要推动整个领域的快速发展,比算法开发更重要的是要解决大家在产业实践中遇到的种种困难。”
苗洪江来自天壤XLab,是该实验室负责人。
他表示,基于上述背景,天壤XLab发布了一款蛋白质设计工作台——CREATOR,试图解决跨领域技术门槛高、工作流程碎片化的问题,在同个工作台上一站式地完成全部蛋白质设计项目。
在赛道发展的早期阶段,这个工作台还需要直面AI蛋白质预测与设计所遭受的质疑,通过降低使用门槛是否能为赛道带来新的气象?
如何实现“人人”都能设计蛋白质?
蛋白质设计有着非常广泛的应用场景,除了新药研发,还能应用在新材料、新食品等领域。蛋白质设计的重要性毋庸置疑,但在AI介入前进展缓慢。
苗洪江认为,蛋白质设计共经历3个阶段,每一阶段的能力提升都与人类对蛋白质结构的理解分不开。
第一个阶段是最早期的20世纪90年代。
这个阶段只有少量的蛋白质结构,对于蛋白质折叠的理解也非常局限,这使得当时完全无法实现功能上的设计,只能通过手动拼接出很简单的二级结构片段。
第二个阶段,随着蛋白质数据库中的结构信息增加,研究人员得以从这些信息中总结出理性经验以及更为复杂的蛋白质能量函数关系,通过实践设计出越来越多功能的蛋白质。
但在这个阶段,蛋白质设计的流程很复杂,落地也非常困难。
而第三阶段,也就是当下,借助AI的技术能力,研究人员已经能够从头设计蛋白质,蛋白质设计的产业化应用也变得更加容易,标志着蛋白质设计已经进入了全新的时代。
在AI算法的加持下,蛋白质结构预测与设计赛道结束了“无人问津”的状态,逐步收获了巨大的关注。
但在实际的产业实践中,仍有各种困难阻碍推广。在苗洪江看来,在这个阶段,要推动整个领域的快速发展,比算法开发更重要的是要解决一些难以避免的困难。
首先,蛋白质设计本身就是一个门槛超高的交叉领域,串联着非常多的学科知识。
苗洪江介绍,在这个领域的研究人员不仅需要具备生物计算的能力,可能还要具备结构生物学、计算化学、物理学等多方面的知识背景,高门槛导致了整个领域的推广很难进行。
其次,现有平台的能力过于单一。
苗洪江毕业于伦敦帝国理工学院计算生物系,在校时,他就曾参与开发Phyre2蛋白质结构预测及分析平台,该平台是目前全球最常用的模拟工具之一。
他注意到,即使平台相对开源算法已经大大减轻研究员的使用门槛,但平台依然掣肘研究工作。
在AI+蛋白质设计工作里,需要调用多种算法能力,而单个平台往往难以满足所有需求。因此,一种很普遍的研究流程出现了——研究员需要在不同的算法平台之间切换。
“在这个平台上做计算,然后下来再去另一家平台上做计算,把结果拿下来后,还要对不同平台的计算结果进行对比分析,整个流程就非常乱套,严重阻碍了工作效率。”
CREATOR 要解决的正是这些痛点。
CREATOR工作台集成了市面上优秀的算法,包括天壤XLab自研的算法与所有外部开源和合作伙伴的算法。
研究员可以自由地选取算法,在CREATOR 上完成结构预测、蛋白质设计、特性分析优化的工作,省去繁琐的切换步骤。
工作台采用可视化呈现,在使用过程中,研究员无需了解算法及其背后的原理,只需进行简单的输入,建立任务并运行,就能得到结果。
在工作台上,研究员还可以对历史任务进行跟踪查看,以项目的方式对原本零散的任务进行分类、串联和管理,一站式地完成从项目规划到结果分析的整个流程。
CREATOR 适用于多肽、酶、抗体和各类功能蛋白质,使用时无需安装软件,在线登陆账号就能启用核心功能。
苗洪江这样形容CREATOR 的作用,“当跨进门要上楼的时候,我们就是一个电梯,而不是需要一步一步走的楼梯。”
如EDA出现后,复杂的芯片功能设计、验证与物理设计都能交由计算机处理,大大节省了时间及人力,推动芯片设计不断往高精方向发展。
下一步,天壤XLab 将继续扩充CREATOR 工作台的功能和算法,建设蛋白质知识图谱,并扩展已有的功能motif库,以进一步赋能研发人员。
能否破除对AI蛋白质设计的质疑?
天壤XLab成立于2019年。
到目前为止,团队已推出了单链蛋白质结构预测平台TRFold2、蛋白质设计平台TRDesign,专注复合体结构预测的TRComplex,以及不依赖MSA信息就能预测蛋白质结构的TRFold-single。
在这些单点能力上,天壤XLab 的TRFold2成绩比较理想,去年在基于CASP14蛋白质测试集内测中,获得了TM-score 打分82.7/100的成绩,今年经数据增强和模型参数扩增后得分达到90.2/100,仅次于全球第一名AlphaFold2的91.1/100的成绩。
今年6月,天壤XLab宣布基于TRDesign成功设计了新冠刺突蛋白结合剂,意图证明AI不仅能准确预测蛋白质结构,还能主动设计蛋白质。
但这些天壤XLab引以为傲的成绩,在圈子外的人看来还不足以令人信服。实际上,整个AI蛋白质预测与设计赛道都面临这样的尴尬境地。
就在不久前,DeepMind宣布,AlphaFold 已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构,以后确定科学已知的蛋白质预测模型将像用“谷歌搜索”一样简单。这一消息引起信徒们的狂欢,但遭受外界诸多质疑。
潘毅、周耀旗、许东等几位生物信息学领域的学者在接受《医健AI掘金志》采访时表示,AlphaFold蛋白质结构数据库新更新的海量数据中存在着部分结果结构不稳定、不能应用于研究中等问题。
美国一位有着30年资深药企从业经历的专家也发文抨击:AlphaFold的作用纯属媒体夸大,靠结构预测做药“纯属自嗨”。
苗洪江坦承,由于研发人员的背景经历不同,对事物的理解也存在差异,大家对于AI预测蛋白质结构的准确度和实用性尚有较大分歧,现在就让大家理解并相信AI可以实现蛋白质设计及应用更是难上加难。
这是还处在年幼阶段的赛道必须面对的现实。正是基于这些认知,天壤XLab选择此时推出CREATOR工作台,希望能通过降低蛋白质设计的门槛,推动技术普及。
据《医健AI掘金志》了解,CREATOR工作台将于10月1日正式上线,面向高校师生免费开放。到后期,天壤XLab也将推动CREATOR工作台面向企业用户的合作。
苗洪江表示,企业级的应用对于后端算力的压力会更大,且相比高校,企业的需求也会偏向个性化,面向企业的服务还需要更完善的团队来支持,公司正在积极筹备。
“这个工作台能帮助我们解决很多问题,比如说,试用并了解这个领域后,会加深大家对AI设计蛋白质的认知,兴趣会不断增加,也能帮我们开启更多合作。”
AI大分子药物研发何时迎“春天”?
AlphaFold 取得突破性进展后,整个蛋白质计算领域十分火热。尽管热度已持续一段时间,但针对蛋白质计算领域的探索其实才刚刚开始。
在苗洪江看来,目前这个领域还远远算不上竞争激烈。
“这是因为之前蛋白质计算领域,特别是在国内,是很冷门的领域,在这个领域有足够积累、了解需要做什么、应该怎么做、对如何将技术落地应用有足够思考和布局的团队其实非常的少。”
比如,最近国内一些高校才逐渐增设计算机加生物学的专业来培养复合型人才,作为根基的人才储备都跟不上,这个领域很难谈得上竞争激烈。
目前,虽然国内外都有不少公司围绕着AlphaFold 算法做商业化,但苗洪江认为,真正属于前沿的探索并不多。
苗洪江介绍,在这些商业化路径中,“有用AlphaFold 做预测服务收费、售卖算力的,也有用AlphaFold 预测结果来做大范围靶点搜索的,像美国的Cyclica,还有借助AlphaFold 辅助小分子药物研发的,像英矽智能今年的一个试验性管线就是借助了AlphaFold。”
而更前沿的探索,如蛋白质的从头设计,以及把设计蛋白开发成大分子候选药物,即发明(create)而不是现在AIDD更集中赋能的发现(screen)药物,所面临的技术难度和商业周期都要更困难、更漫长。
一个明显的信号是,近年来AI制药赛道狂奔,但更多的应用与赋能都是集中在小分子药物研发中。
相较之下,大分子药物数据稀缺,且技术壁垒更高,参与大分子药物研发的AI制药公司寥寥可数。
苗洪江表示,蛋白质从头设计的关注热度在国内要冷清不少,但在全球范围,美国头部的biotech,如Amgen、Genetech已经有所布局,来自这些美国公司的成功经验,能够给予国内创业者信心。
天壤XLab初期也以新药研发为切入场景。
苗洪江提到,在蛋白质计算领域,学术和业界都非常关注的技术方向包括,如何以计算赋能药物的靶点发现、如何设计优化特定功能蛋白质、如何计算检测蛋白质的各项理化特性等,CREATOR 工作台将逐步上线相关的算法和能力支持。
“我们希望蛋白质设计在国内也能得到大范围应用,但这项技术推广的难度很大,所以我们开发了CREATOR 工作台,希望能降低技术门槛,让更多人进入这个领域做研究,从而更快地推动应用落地。” 雷峰网 雷峰网 (公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。