之江实验室陈红阳:大模型要落到实处,必须要解决背后的算力缺口|医疗大模型十人谈
大模型时代,“AI军备竞赛”正从过去算法和数据层面的竞争,转变为底层算力的竞争。
《中国人工智能大模型地图研究报告》指出,截至2023年5月底,国产超10亿参数的AI大模型已达79个,从全球分布来看,美中两国大幅领先,超过全球总数的80%。
随着大模型发展成为“持久战”,底层算力比拼也将在很大程度上决定大国博弈的终章。
因此,在ChatGPT出现后的九个多月里,已有不少大模型依托超大规模国产化算力底座,打造一条“算力—数据—算法—应用”的全链条AI研发体系。
以网络与计算技术见长的陈红阳,目前正带领之江实验室图计算研究中心投身到当前一轮的大模型浪潮中。
“一是研发基于图计算的预训练大模型,二是进行国产硬件适配,打造图智能计算系统。这就是我们现在常说的‘软硬件协同’。”
陈红阳是网络信息背景,曾在西南交通大学、中科院计算所、宁波中科集成电路设计中心、日本东京大学、UCLA大学,日本富士通研究所,参与过物联网理论和算法研究、无线通信系统研发,和信息与通信(ICT)技术国际标准化工作。
2020年7月,陈红阳回国加入之江实验室,他的研究重心也随之变迁,转向“智能计算”(算力)。2022年中,之江实验室和华东科技大学成立了图计算联合研究中心,目标是打造软硬件协同的图计算的系统,由陈红阳担任该中心副主任。
据悉,目前研究中心已推出“朱雀图预训练大模型”,以及高效图计算平台“之江朱雀平台”。该平台能够一站式赋能医药制造和生物育种等领域,并在今年与一家药企签署合作协议。
近日,雷峰网《医健AI掘金志》推出《医疗大模型十人谈》系列,探究国产AI大模型如何迈向生态建设,以及不同机构在转化落地上的布局和探索。以下是和陈红阳的对话内容,我们做了不改变原意的编辑与整理。
《医健AI掘金志》:ChatGTP加速了“计算智能时代”的到来。目前你带领团队所做的“之江朱雀”平台,集齐了GPT、图计算、加速药物发现3种技术能力,是否有过往经历的背书?
陈红阳: 目前我的研究线分为两块,来到之江实验室之前,我一直聚焦在网络信息领域,当时我和团队一起构建了大型ICT(信息通信技术)系统,像物联网和5G系统。
2007年到2011年,我博士去往日本东京大学,参与无线传感器网络理论和算法研究。期间我去往美国UCLA大学担任访问学者,在Ali. H. Sayed教授领导的实验室主要从事分布式信号处理研究。
而后进入日本富士通研究所工作过十年(2011-2020)。大概是在2017,2018年,我参与了一些大数据平台的研发工作,特别是为运营商的数据进行挖掘和分析,从那时起,我慢慢从原来做的“连接”偏向了“计算”,更确切是“智能计算”。
同时期,之江实验室在2017年成立,加上我本身是浙江人,有过几次接触,所以我2020年7月回国并正式入职。因为我有网络、计算、数据分析的背景,最初我是在“智能网络”研究中心,后来随着之江实验室主攻“智能计算”这一战略方向,我便做起了这方面的项目。
但我是怎么做起了图计算呢?
大数据时代,图计算已经成为海量数据高效分析和挖掘的基础性使能技术,是近年包括美国在内的各国在智能计算领域力争的制高点。
为提升实验室在图计算领域的研究实力和战略地位,2022年6月,之江实验室联合华中科技大学于共同组建“图计算联合研究中心”,预期实现图计算从理论到系统、从原型到芯片、从专用到通用的逐步落地。
去年ChatGPT一跃成为全球创新的焦点,我认为自己需要顺势而为,发挥我在网络和计算领域多年来的积累。
一是研发“基于图计算的预训练大模型”,二是进行“国产硬件适配”,打造 “图智能计算系统”。这也是我们现在常说的“软硬件协同”。
目前大家所看到的之江朱雀平台,已经接入了我们的“朱雀图预训练大模型”、集成了很多传统的图深度学习方法及自研的图学习算法、而且已经适配了华为的昇腾和鲲鹏芯片。因此在平台上面,我们可以做很多科学计算问题,医药研发是其中很重要的一块。
“大规模高效图计算平台”仅仅只是我们团队的一小步。从芯片、编程框架,到软硬件平台一体化设计,最后打造一台全国产自主可控的图计算机,才是我们图计算中心的目标。
《医健AI掘金志》:国内外企业更多是将图计算技术研究消费行为、电信诈骗、金融贸易等,你们为何将这一技术用于生物制药?
陈红阳: 确实,近年来图计算技术已经扩展到了非常多的领域。2021年7月,Alphafold2掀起了一股计算制药的浪潮。我也是那时候开始着手将图计算技术应用于生物制药领域。
从技术原理上说,药物分子可以视为由原子和化学键构成的图,比如它的原子可以看成一个“节点”,化学键可以看作是“边”,因此图计算技术能很好地应用于该领域,帮助预测化合物的性质、相互作用、与靶点之间的相互作用等。目前我们团队开发的朱雀图预训练大模型,主要是用图结构数据加速药物发现。
为什么一定要重新开发这样一款垂直大模型,根本原因是ChatGPT直接应用到生物制药领域,还存在很多不足:
一是无法把控可信性、二是在特定领域表现差、三是成本高昂。
如 Bert 和 ChatGPT 等,已在自然语言领域展现出了惊人的效果,但应用到生物制药领域则无法应对生物领域的非欧结构数据、图神经网络中的过平滑问题、数据标签稀缺、如何融入领域知识,以及如何解决大数据大模型的工程问题等。
因此,我们必须要打造一款我们自己的“生物GPT”。而且不能一味地堆数据量,还要将药学的领域知识嵌入大模型中。
从这点讲,我们的朱雀图预训练大模型,是“知识图谱+图计算+大模型”三者互补而来,能够很大程度上规避大模型“胡言乱语”的幻觉问题。
那么,在大量分子数据上完成自监督预训练任务后,未来只需要在将得到的编码器在下游任务上微调。如 DDI(药物间的相互作用)、DTI(药物与蛋白质之间的相互作用)和 MPP(药物性质预测) 等,只需要做出很小的调整。整个流程沿袭了大模型的思路。
最终所有的功能都会集成在之江朱雀平台上,我们会开放模型接口、算法、数据、算力,提供一个一站式的平台。
《医健AI掘金志》:所以医药研发只是朱雀图计算平台的其中一个应用,你们在研发过程中遇到哪些技术和工程挑战?
陈红阳: 国内将图计算大模型应用到医药领域的团队并不多,大部分还是集中在金融、电商,以及社交网等领域。我们团队里最初没有药物化学背景的人,全靠自己去摸索,过程中写了一本白皮书--《之江实验室智能计算“数字反应堆”白皮书——计算制药篇》。当然我们的理解没有那么深,目的是从计算的角度理解制药的东西,助力AI4SCI。
朱雀图计算平台的研发过程中,主要有3个关键技术难题:
1) 建立知识融合的高效自适应图学习平台,研发高效图神经网络和知识图谱算法,解决科学图计算和稀疏学习的知识融合问题;
2) 针对多学科科学图学习中的算力与算子适配不足,及国产芯片集群的软硬件不兼容问题,研发适配的智能图算子,提高典型算法算子性能能1倍以上。
3) 针对多学科科学图学习中的表示困难,图架构自动学习能力不足,及图生成缺乏领域知识等问题,利用多学科的预训练模型和领域知识,研制图架构搜索、图生成学习、图表示学习及知识图谱技术和预测算法软件。
此外,数据是一个非技术的难题。
我们自己有大型细胞测序仪,也和良渚实验室的测序团队合作,他们产生的数据会到我们这边来。而且作为国家战略科技力量,最终平台和数据都是开放开源的。
现在面临的较大问题是靶标发现和医院数据,能否通过分布式联邦学习的方式共同使用。这块我们拿到的只是少量的开源数据。
《医健AI掘金志》:国内外大模型发展路径有何不同?
陈红阳: 在中美大模型的发展过程中,美国更注重技术的研发与创新,并在硬件和深度学习框架等方面取得了重要进展。
例如NVIDIA、Google推出的适用于深度学习的专用芯片GPU、TPU,还有包括TensorFlow、PyTorch在内的开源框架,都处于世界领先地位。去年英伟达还推出了生科领域的大语言模型的框架BioNemo。
相比之下,中国更聚焦在人工智能的应用层面,探索如何实现其商业变现。所以未来会有三大生态层:基础模型层、中间层和应用层。
最底层当然机会巨大,天花板会非常高,但风险也是最大的,因为平台公司一定是少数,好比很多操作系统最后只剩下iOS和安卓。但目前芯片紧缺、国产框架的生态圈不足、交叉学科人员的匮乏等,导致智能计算底层关键技术还是缺失的。
如果是做应用层,风险就没有那么大,而且每一个生产力领域都可能成长出垂直领域的领先公司,但规模可能无法与平台公司相比。
但国外开源大模型多于国内,造成一些公司拿着国外的开源代码进行“套壳”和微调,并不利于生态建设。
《医健AI掘金志》:现如今有这么多机构做大模型,会不会陷入同质化内卷?
陈红阳: 确实,越来越多的机构开始涉足大模型的研发和应用,截至今年5月底,中国研发的大模型数量排名全球第二,仅次于美国,国内超10亿参数的大模型至少79个。这种情况下可能会导致同质化内卷。
自然语言处理、计算机视觉、推荐系统,都是当下大模型的热门领域,当研究方向都集中在这些领域,再加上相似的训练数据集和算法选择,导致研发的大模型缺乏差异性和创新性。
而且这也消耗了大量社会资源。整体上国内大模型尚处于追赶阶段,面临一些挑战,如核心算法不成熟、训练数据质量低、实际落地效果不理想、生态圈不健全等问题。
当然,也有学者开始关注新的研究方向,比如优化训练算法与架构,探索大模型的可解释性等。尤其是可解释性对于自动驾驶、智能家居、金融风控、生命科学等应用场景来说至关重要。
《医健AI掘金志》:在大模型研究中,以企业为主导的方式,对比以实验室为主导的方式,会更有优势吗?
陈红阳: 正如“闭源摧毁 UNIX,开源成就 Linux。”
实验室为主导,使得开发人员可以腾出时间来解决尚未真正意义上的问题与解决,实现技术社区内自然的分工协作。现在市面上符合中国用户习惯的高质量大模型是十分欠缺的,这也是很多大型实验室决定开源的原因。
如果是纯粹企业主导,大模型更多走向闭源。其数据一般是私有的,更注重落地。但他们有几亿的或者几十亿的经费,直接租用一年的算力资源,可以一年从头到尾不间断训练。
因为大模型的训练本质上就是一个超大的训练任务,比如在1000张(或更多)GPU卡上跑两、三个月。测算了一下,购买1000张H800按市场价,就要投入3亿资金。即便是租用算力也容易以亿元为计。通常实验室支撑不了如此大的成本。
《医健AI掘金志》:大模型“智能涌现”令人兴奋,是否导致存在一些发展误区?或者说大模型存在一定泡沫?
陈红阳: 过于追求参数规模,是大模型发展中存在的一大误区。
仅仅增加模型的规模并不一定能够带来更好的性能,模型性能和其它许多因素相关,比如网络结构、数据质量等。一味地堆叠参数量可能会带来一些问题:
1,过拟合风险。导致模型泛化能力下降,虽然在训练集上表现良好,但在下游任务上表现不佳。
2,缺乏解释性。大量参数使得模型的决策过程难以解释,也就是我们常说的“黑盒问题”,这使得大模型缺乏可解释性和可信性。
3,资源不足。增加参数量可能会增加存储、传输和计算资源的负担。因此,在选择模型规模时,需要权衡具体任务要求、可用资源和训练数据大小等因素。
但国内大模型还应该继续向前发展,太早的刹车反倒有可能形成泡沫。
《医健AI掘金志》:下半年,生物垂类大模型的技术演变方向是怎样的?
陈红阳: 一定程度上,未来的大模型应用趋势一定是“大模型+知识+行业应用”的模式。大模型将成为未来AI产品的操作系统,将会催生全新的“模型即服务”产业。
目前的大模型能够为用户提供基础的知识服务,它就像一个不那么准确的知识库或搜索引擎,只能提供一些很基础的服务,而且无法保证准确、可控和可解释,这将极大限制它在实际场景的应用。
因为用户无法接受胡说八道、不准确、不负责任的服务。
所以,必须加上知识,让大模型可控、可追溯、可解释,并且能够更精准地解决更专业的问题。
最后,大模型结合具体的应用才能让智能算法和平台落地,只有满足用户各种各样的个性化需求才能产生价值。
GAIR全球人工智能与机器人大会正在进行中
第七届GAIR全球人工智能与机器人大会,于8月14日-15日在新加坡乌节大酒店举办。论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。
大会共开设10个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。
GAIR创立于2016年,由鹏城实验室主任高文院士、香港 中文大学(深圳)校长徐扬生院士、GAIR研究院创始人朱晓蕊、雷峰网 (公众号:雷峰网) 创始人林军等人联合发起。历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、 100多位 Fellow,同时也有500多位知名企业领袖,是亚洲最具国际影响力的AI论坛之一。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。