大模型「点火」,AI for Science 提速
在生产环节中,95% 是一个分水岭。
以人为对照标准,人工的准确率在 92% 至 98% 之间,因此,行业对机器容忍度的判别标准取之中位数,未达到 95% 的部分,无论是 80% 乃至 90% 的准确率,对模型生成容忍度极低的生产环节而言,二者没有区别。
过去几年,以计算机视觉、语音等为代表的 AI 技术领域取得了极大的成功,但受限于模型可解释性差、通用性不强等弊端,AI 的大规模道路难以展开。
直至大模型技术出现,它通过与人类的交互中不断学习,进而获得更好解决问题的能力。这当中,行业 Know-How 在生成内容中起到关键作用,对医学、金融、安全、法律等领域带来了变革性的影响。
9 月 7 日,在 2023 腾讯全球数字生态大会- Techo 腾讯科学家专场上,论坛联手 CSIG 前沿探索俱乐部及新基石科学基金会,邀请了腾讯各大实验室科学家及“科学探索奖”获奖人,聚焦科学前沿探索和技术应用,以对话的形式,分享最新的落地成果。
大模型技术探索和落地方兴未艾,一个业界共识是,大模型深入行业,与各个领域结合,在激发生产力的同时,对原有生产链条也将带来颠覆性的影响,从底层出发向上层逻辑的重塑,最终逐渐影响到技术研发、产品开发、服务消费等各个环节。
多位研究者在与雷峰网交谈中提到,AI 技术正被用于生命科学、医学制药等研发创新中,越来越多人开始意识到,大模型为新科学规律的发现和 AI for Science 发展提供了更便捷的工具,有学者预测,未来十年内,科学范式将会被生成式 AI 重新定义。
距离科研更近的人,深知复杂科学问题背后的前沿与颠覆,而贴近产业侧的开发者,更清楚 AI 技术在应用阶段的挑战与机遇。大模型的出现对 AI for Science 有什么意义?又会对其发展带来哪些影响?
能力越大,责任越大
“知识增强型”行业大模型已成为共识,是更接近人类大脑、释放智能生产力的 AI 落地范式,将行业领域知识注入模型当中,提升模型对知识的记忆和推理能力,可以有效填补基础模型和场景之间的认知鸿沟。
但在实际操作中,从业者往往会发现事情并没有那么简单:
一家从事医疗 AI 结合大模型技术服务商告诉雷峰网,从 B 端侧来说,医疗大模型可以划分为诊前、诊中和诊后三个阶段,为了应用不同阶段会产生的问题,因此,医疗领域大模型在训练要求就很高。
比如说诊前,过去医生在看病时,需要事先了解许多患者相关的信息和问题,根据收集到的信息判断大概的情况,这个过程耗时长且占用精力。有了大模型后,这部分工作可以借助 GPT 来完成,医生通过向模型注入医疗数据和自己知识体系,GPT 可模仿医生的习惯、提前跟患者了解病理信息。
但一个亟待解决的难题是:医疗环境中对深层语义的要求很高,患者在与医生沟通时,很少涉及有指征性的专业医学术语,患者有哪些症状是由医生根据其描述来判断,当这件事交给模型去做时,它能否将患者的描述与对应的病理问题对齐、做出正确的判断,对构建医疗大模型而言是个不小的挑战。
医学非常复杂,如何与大模型等为代表的 AI 技术相结合,成为学界和工业界共同关注的焦点。
在 Techo 腾讯科学家专场上,北京邮电大学信息与通信工程学院特聘研究员、2022 年“科学探索奖”信息电子领域获奖人王光宇,与腾讯杰出科学家、腾讯天衍实验室负责人郑冶枫,分别从学术视角和工业视角,就对流行病研究、监测及防控的技术思路的异同点,以及大模型、多模态在医疗领域的落地展开了探讨和畅想。
郑冶枫对话王光宇
为了解决医疗大模型“医学专业度”和可信任问题,腾讯在医疗大模型中加入了天衍实验室多年来在医疗领域积累的专业 Know-How,涵盖 285 万医学实体、1250 万医学关系等结构化数据,基本可覆盖 98% 的医学知识。
郑冶枫指出,通过把专业知识给到模型,让模型推理时候参考这些知识,比如在患者提问的问题里,采用自然理解语言技术,自动提取一些相关的疾病,相关的药品,在数据库里将相关知识给到模型,可以让模型去做更准确的问答。
同时,打造高质量、专业的医疗大模型,对于提升科学抗议的准确性也具有重要作用。此前,王光宇和团队在研究中发现,通过预训练大模型的技术,构建一个通用的蛋白质相互作用的框架,可以有效计算病毒蛋白质对人体的亲和力,从而更好地预测病毒未来哪些可能的突变位点发生之后,对人的感染性会更强。
而伴随着大模型深入具体场景、具体应用和具体问题,它所展现出来的影响力不断扩大,其实践和落地的边界也得以进一步拓宽。
清华大学计算机科学与技术系教授、2020 年“科学探索奖”信息电子领域获奖人朱军,与腾讯杰出科学家、腾讯安全玄武实验室负责人于旸都是聚焦 AI 安全前沿研究的,面对新兴技术风口下的网络安全发展趋势及挑战,他们在对话中围绕相关话题进行了探讨分析。
于旸对话朱军
现阶段的网络安全威胁已呈现出全球化趋势,不夸张的说,地球上每一分钟都有还没睡觉的攻击者存在。如何防范AI 安全和它带来的攻击赋能问题?于旸提出,借助大模型技术加持,安全人员可以有效改变之前需要通过“投喂”大量相关数据进行学习训练的难题,仅需要做少量的调整,即可实现指令的执行。同时,借助外部工具并对处理结果进行分析,可判断是否需要再用别的工具,从而完成任务需求。
这样一来,大模型的能力就越大,能够改变的领域也越多,所肩负的责任也越大。
朱军也表示,AI 提升了复杂的推理决策能力后,能够在较少的数据标注的情况下,通过不断地交互和试错,提升大模型自身能力,并调整策略,可实现对网络安全的助力与增效,这将给整个安全行业带来巨大的变化。
可以看到,以混元通用大模型为基座、结合行业大模型两条腿走路,腾讯正对外释放出大模型深入行业的服务能力,这也是大模型落地最为清晰的一个路径。
新科学,新范式
2018 年,AI for Science 的概念被提出,为了解决当前科研范式下面临的诸多难题,AI 技术成为辅助科学家的工具。
其中最具代表性的工作之一,是 2021 年提出的 AlphaFold2 ,开源仅一周的时间里,98.5% 的人类蛋白质结构被 AlphaFold2 所预测,而在此之前,全球多少顶尖科学家耗时数十年的努力,也只解码了覆盖人类蛋白质序列中 17% 的氨基酸残基。
又例如今天爆火的大模型和数据库,可以有效提高处理海量数据、整合知识的效率。
自十五、十六世纪以来,科学发现以两条路径展开:一是基于第一性原理,对物理世界基本理论的探索;其二,则是以数据驱动的方式,对应用基本规律的归纳。
受量子力学建立的影响,第一条路径濒临瓶颈,多数科学问题在理论基础上、可使用相关的物理模型进行求解。进入真实场景中,面对复杂环境里的实际问题,量子计算产业热潮兴起,应用潜力大,但现实的问题是,其成长周期还很漫长。
中国科学技术大学教授、2022年“科学探索奖”数学物理学领域获奖人朱晓波与腾讯杰出科学家、腾讯量子实验室负责人张胜誉二人在交谈中就提到,AIGC 对于量子科研或更广范围的科学会起到非常大、非常深远的影响。
张胜誉对话朱晓波
目前,虽然学界与工业界在关于量子计算研究与应用的探索上有重叠,但受不同思维方式的影响,学界更关注实验室场景下、将事情做得多好,做成;而工业界则更多考虑到研究能否落地,落地后所产生的价值、可规模化的商业价值等。
举个例子,在实验室验证量子算法在某些问题上、最终会比经典算法跑得更快,可能对学界而言是个有价值的工作,但对于具体产业应用来说,距离能够使用还有很长的一段距离要走。
而在以数据为驱动的第二条路径中,小规模数据仅限于粗颗粒度的模拟与预测,要提升算法模型的能力,则离不开更大规模的数据支撑。
数据的重要性之于技术发展长期存在。但在国内,高质量、经梳理过的数据短缺是一大问题,特别是有效的中文数据更是稀缺。此外,随着数据量级的增加,仅依赖传统的数据处理方式,还会面临计算代价激增、数据分析效果递减的问题。
以多媒体通信为例,传统多媒体应用中的数字化信息数据量庞大,对存储器的存储容量、网络带宽以及计算机的处理速度等都有较高要求,很难完全通过增加硬件设施来满足现实的需求。因此,基于脑电信号的智能信息通信成为一个热门的研究方向。
清华大学电子工程系教授、2021年“科学探索奖”信息电子领域获奖人陶晓明,与腾讯杰出科学家、腾讯多媒体实验室负责人刘杉在对话中指出,通过对大脑在感知和信息处理机制方面的研究和理解,可以探索更加智能化的、高效的数据处理和传输方法。
与传统通信场景不同,广域场景下,受到资源限制、环境复杂等因素影响,通信需求也会受到一定的干扰,刘杉团队此前的工作经验,为制定特定场景的压缩和传输标准可提供参考性建议;而在某些资源受限的场景下,压缩传输正展现出越来越重要的角色。
陶晓明表示,在未来面向机器视觉的语义通信方面,结合视频编码和语义通信,将可实现特定场景下对关键语义信息的更好保护,提高通信的智能化和效率。
刘杉对话陶晓明
今天,大模型之于技术变革和生产力解放的积极意义已经显现,不局限于物理世界,AI 对生物世界的探索和理解也在生成。
一位从事智能产业研究的科研人员告诉雷峰网,目前 AI 研究中所使用的许多数据,是科学家们基于旧范式所得的数据基础,通过把大模型分布调整至可解决具体任务的参数,并借助 Prompt 对数据再次收集,可获得更适合大模型发展、AI 进步的新数据。
可以预想,或许在不久的将来,将诞生一个吸收了海量科学训练数据的大模型,在理解科学知识的基础上构建出新的假设,产生新的科学发现的可能性,反哺科学研究,从而推动 AI for Science 进一步发展。
仰望星空,脚踏实地
物理科学家狄拉克曾预言,寻求数据建模所需要的基本规律的任务已大体完成:困难只在于这些定律的应用,得到的方程一般都太复杂而无法求解。
直至二十世纪五十年代,电子计算机投入使用,以及微分方程数值方法的出现,人类自此实现了从基本原理出发解决实际问题的能力,并构建起现代工业和技术赖以生存的基础。
而今,人工智能技术的发展,AI for Science 作为一个正处于茁壮成长期的新的交叉学科,已经成为科研范式的重要创新方向。
一项技术之所以能被赋予“变革”的重量,不能仅停留在实验室阶段,靠的是它的触角得以延伸至各行各业,解决具体的问题,在应用阶段激活生命力。
大模型之于 AI for Science 发展更是如此。
腾讯 AI Lab AI 医疗首席科学家姚建华在同北京大学理学部副主任、北京大学化学与分子工程学院教授、北京大学生物医学前沿创新中心研究员高毅勤的对话中举了这么一个例子。
姚建华对话高毅勤
过去,新药研发是一个漫长的过程。一项发表在 Drug Discovery Today 杂志的分析显示,制药巨头平均每款新药的成本高达 61.6 亿美元,将一款新药推向市场需要不少于 10 年的时间。但有了 AI 的帮助,不仅可以提升临床试验的效率和数据准确性,还能更清晰的进行病理分析,从而大幅提升新药诞生的效率。
姚建华预测,人类疾病中特别关注的是蛋白,在可见的未来,针对蛋白来进行药物的设计以及疾病的诊疗,将是 AI 应用落地创新的重要方向。这不仅需要科研人员对前沿技术保持强大的热情、仰望星空,也需要如腾讯等工业界一同参与,脚踏实地,实现技术与产业的对接。
对此,高毅勤也表示,只有真正把基于大数据的,基于高精度的、高通量的科学计算的和基于由人工智能直接融合的实验结合起来,才能更好地发挥 AI 在生命科学领域的重要作用。
科学研究的两大根本目的,一是对于事物本质的研究和探索,二是解决实际的问题。
依托于这一科学理念,腾讯成立了天衍实验室、AI Lab 实验室、多媒体实验室、玄武实验室和量子实验室,围绕医疗、AI、多媒体、安全和量子五大领域,与业内顶级高校团队和研究机构展开合作 ,共同探索底层及前沿技术创新及落地应用的可能性。
以天衍实验室推出的腾讯医疗大模型为例,该大模型当前已具备文案生成、智能问答、病历结构化和检索、影像报告、辅助诊断等,可嵌入到诊前、诊中、诊后的医疗环节全流程中去,完成“医疗咨询平台+大模型”的升级,提高医生的就诊效率,同时也能进一步做好患者的诊后情况跟进。
又比如 AI for Science 领域,在 2022 年 NeurIPS 上 ,腾讯 AI Lab 与多家高校联合团队,获得了第二届 Open Catalyst Challenge(OCP)竞赛冠军,相较此前 MSRA 的冠军方案,整体效果提升了 27.6%。
在 ICLR 2022 上,腾讯 AI Lab 提出了基于独立 SE 等变模型的蛋白-蛋白交互系统 EquiDock,首次实现直接预测旋转平移和形变,突破了传统对接软件中耗时不准的缺点,并将预测速度提升达到 500 倍。
每个行业有每个行业的难题,由于细分场景的数量难以统计,长期以来,提供算法、模型的 AI 公司往往难以洞悉每个行业自身的特殊场景需求。
为此,在量子计算研究领域,腾讯量子实验室已构建了包括组合优化问题的容错量子算法,中等规模含噪(NISQ)的量子算法,量子电路的优化,量子噪声的刻画等量子算法和软件在内的量子布局。在此基础上,还同化学、材料、制药、金融等行业合作,通过经典算法,AI,软件开发,数据库构建,工作流搭建,云平台上的 SaaS 服务等多方面的理论和实践研发,加速在工业领域的落地。
中国科学技术大学教授朱晓波对此颇有共鸣,他在对话中指出,得益于腾讯在产业界的巨大优势,可以基于此找到更有价值的应用场景,转化成为量子计算机的算法,从而推动学术界努力提升量子计算的性能,在近期和远期算法两方面,真正实现让量子计算机逐步“用起来”。
仰望星空,不忘脚踏实地。
而今,腾讯带着混元大模型而来,深入领域中去,可以期待,在不久的未来与生物科学、医学、量子计算、安全、多媒体等研究相结合,率先打响了大模型之于新科学的竞赛,这亦是对科学范式变革的关键性探索。
经过数月的发展,虽然人们暂时还不清楚大模型在何种条件下可以实现能力“涌现”,例如到底需要多少神经元、多少参数,但相互作用已然出现。通过大模型研究,不仅可以成为解决复杂问题、提高计算效率的工具,更为探索 AI for Science 发展提供了系统性的借鉴思路。
(雷峰网 (公众号:雷峰网) 雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。