锚定前沿,突破创新:飞桨支撑量子科学、生物医药加速研发与应用
当科学开始以更快的速度激荡,有一部分人先看到了未来。
随着 互联网 的普及、传感器的泛在、大数据的涌现、电子商务的发展、在线社区的兴起,数据和知识在人类社会、物理空间、信息空间以及生命科学之间交叉融合、相互作用,量子科学、生物医药等一系列的前沿科学与人工智能学科交织碰撞,将发生什么呢?
首先,量子计算(量子力学和计算机科学的交叉学科)给现有的信息处理方式和人工智能技术带来了全新的想象。我们所熟知的经典计算机以经典比特作为信息处理的基本单位,一个经典比特的状态要么为0,要么为1。相比之下,量子计算机则利用了量子力学中存在的独特现象,通过量子比特来存储和处理信息。其比特状态可以为0和1的“叠加”态,也就是说可以同时表达0和1。如果把经典计算机和量子计算机拟人化,让他们同时在一个复杂迷宫内寻找出口,那么经典计算机需要一条路一条路地尝试,一条不通再试下一条。虽然这个过程相比容易“晕圈”的人类来讲已经非常具有速度优势,但对比量子计算机那种可以同时并行尝试多条路径并找到出口的“新计算”来讲,还是显得“慢”了许多。量子计算机的种种特殊性质可能会为经典计算机无法有效解决的问题带来新的希望。
在带来潜在优势的同时,量子计算机需要人们对于更深层微观系统的操控能力,这在工程上是一个巨大的挑战。近年来,国内外在量子计算机的硬件上都有做出了巨大突破,这也为人们初步使用量子计算机来解决实际问题带来了可能。而量子人工智能,就是可能产生重要突破的方向之一,作为量子计算与人工智能的交叉融合领域,该方向可以使得两个学科相互借鉴、相互补充,从而实现双赢。一方面人工智能可利用量子计算的信息处理优势促进自身发展(新型的人工智能算法等等),另一方面量子科学也可以利用人工智能来突破研发瓶颈(例如通过深度学习技术实现对微观系统更优的操控)。总的来说,量子计算在大规模应用落地之前还有许多棘手的科学与工程技术难题待解,而这就需要以人工智能为代表的先进技术做支持。
在这方面,国内像百度这样自身具有AI技术优势的企业也早就开始了研发与应用探索。去年,百度就接连在国际量子顶会TQC 2020和QIP 2020亮相并有着惊艳的表现。其中,在TQC 2020大会中,百度凭借着自身在量子计算领域的技术积累,成功入选1个邀请报告和1个贡献报告,这是大陆地区首次且唯一入选TQC的邀请报告,百度在全球量子计算学术界的影响力得以凸显。
事实上,百度早在2018年便成立了量子计算研究所。到了2020年,百度基于自身开源开放的深度学习平台飞桨发布了“量桨”——支持量子神经网络的搭建与训练的量子机器学习工具集。而飞桨作为中国首个自主研发、开源开放、功能完备的产业级深度学习平台,全面涵盖核心框架、基础模型库、端到端开发套件、工具组件,以及飞桨企业版AI开发平台,可以说是为产业、学术、科研创新提供了基础技术底座。
基于飞桨打造的量子机器学习工具“量桨”,建起了人工智能与量子计算之间的桥梁,支持常用的量子电路模拟并提供组合优化、量子化学等前沿应用工具包。同时,为了便于开发者利用量子科学快速进行应用向探索,量桨还提供了翔实的入门教程和场景案例(qml.baidu.com),为广大量子计算爱好者提供了一条可行的学习途径。
今年1月,在量子计算顶会QIP2021上,量桨重点新增了分布式量子信息处理模组LOCCNet,在量子纠缠处理场景中达到业界最优并得到了广泛的关注,更是支持量子态分辨、量子隐形传态等核心量子信息处理方案的便捷开发。量桨团队通过LOCCNet发现了全新的纠缠提纯方案,达到业界最优,可用于推动量子通信等技术的发展。今年3月,量桨适配飞桨框架2.0也重磅升级至2.0版本,运行性能最高可提升40%,达到国际领先。
同时,量桨还新增量子噪声模块,支持开发者在量子算法中设置常见的噪声从个人开发适用于近期含噪量子设备的应用。通过百度飞桨深度学习平台赋能量子计算,量桨为领域内的科研人员以及开发者提供了便捷开发量子人工智能应用强有力的支撑,也推动着人工智能与量子计算的融合创新。
事实上,学术界长久以来往往瞄准世界先进的方向进行投入,即学科前沿,但应用落地的速度相对缓慢。随着本世纪的信息环境发生着巨大而深刻的变化,开始快速反映并聚集人类的发现、需求、创意、知识和能力,学科交叉碰撞,为前沿学科的技术应用带来“加速度”,特别是近期可深刻感受到的生物医学研究方向上的突破与创新。
2020年人类与病毒之间的一场遭遇战,人工智能以生物计算角度切入生命科学,加速了生物医药研发的效率与速度。去年5月,百度推出了全球首个mRNA疫苗基因序列设计算法 LinearDesign,可用来高效设计优化mRNA序列。而从生物学角度看,疫苗的研制有多个方向,如DNA疫苗、mRNA疫苗、蛋白质疫苗和最常见的灭活疫苗等。其中,技术成熟且效果不错的灭活疫苗研制一般在10年左右,而这次我们之所以能够一年研制出灭活疫苗可以说是举全国之力创了奇迹,但这不是常态。相比来讲,mRNA疫苗可省去蛋白质疫苗需要体外培育抗原的环节,大大减少了生产周期,更有希望成为未来的预防工具。一旦成功,以后再有其他类似病毒,我们只要搞定病毒的关键基因序列疫苗就算完成了一半,这让疫苗的研发周期瞬间从10年左右拉至周级单位,疫苗研发也由此从一种生物化学问题转变为工程问题。
但mRNA疫苗的挑战在于非常“脆弱”,很容易在保存和运输过程中因为降解而失效,并导致蛋白质表达效率的大幅降低,而百度研发的LinearDesign算法则针对mRNA疫苗的这一挑战做出优化,提出了一种更为直接和高效的解决方案。目前,在新型冠状病毒刺突蛋白序列上的计算机模拟实验也已证明了LinearDesign的有效性。该算法带来的解决方案不仅可以设计出结构最稳定的蛋白序列,而且只需要1个半小时左右的时间。
此外,如果再进一步采用线性时间近似算法,所需的时间将可再缩短至16分钟,而与最优解的能量差距(衡量稳定性的指标,能量越低越稳定)只有0.6%。这两种设计相比于自然界天然存在的新型冠状病毒刺突蛋白mRNA序列要稳定的多(能量降低了150%)。早在去年,领先的LinearDesign算法就已向全球疫苗研发机构及研究中心等免费开放,并在arXiv发布了相关论文,助力新型冠状病毒疫苗研发。
目前,百度也已与中国疾病预防控制中心病毒病预防控制所签署战略合作协议,联合设立“中国CDC应急技术中心-百度基因测序工作站”。此外,中国疾病预防控制中心后续还将使用百度LinearDesign算法设计的mRNA疫苗序列进行体外实验,验证疫苗的稳定性和蛋白质表达效率。2020年底,在国际顶尖人工智能峰会The AI Summit上,百度凭借LinearFold和LinearDesign算法在新冠抗疫中的杰出贡献,荣获了AIconics首届“AI For Good(人工智能向善)”奖。中国AI的技术实力、责任担当以及与行业深度结合的能力再次收获国际盛赞。
除了LinearDesign外,百度在生物计算方面积累的其他成熟经验已基于飞桨打造的螺旋桨PaddleHelix进行开源,提供包括大规模的分子预训练、药物-靶点亲和力预测、以及 ADMET成药性预测等一系列算法和模型。同时,螺旋桨PaddleHelix生物计算平台底层依旧以飞桨核心框架作为支持,有深度开发需求的开发者也可以满足自身所需。从上层应用场景来讲,PaddleHelix满足了药物研发,疫苗设计和精准医疗三大主要场景,帮助生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴,更便利地构建AI算法模型。
今年三月,凭借PaddleHelix在分子表示方面的技术创新,飞桨还在图神经网络国际权威榜单OGB(Open Graph Benchmark)多项分子性质预测任务中亮丽登顶,在AI药物发现领域取得新的技术突破。
综上所述,我们已不难感受到,技术的进步让科学研究越来越多地呈现出集成创新、融合发展的新态势,学科交叉融合已成为当前科学技术发展的重大特征,而强化学科交叉和寻求新的科研范式已经成为支撑实现 科技 创新重大突破、发展战略性新兴产业的迫切需要。
截至2020年底,飞桨已凝聚超265万开发者,服务10万家企业,基于飞桨平台创建了超过34万个模型,在城市、工业、电力、通信等很多关乎国计民生的领域都有飞桨在发挥作用。飞桨显著降低了人工智能的应用门槛,加快了创新速度的同时,也在通过前沿学科的交叉不断拓展创新的边界。未来,作为智能时代开源开放、技术领先、便捷易用的基础技术底座,飞桨还将为整个智能社会带来更多、更大的可能。