GPT诸神之战,小巨头如何做大模型?
据不完全统计,ChatGPT 发布不过半年,中国已经发布接近 40 个类 ChatGPT 的大模型产品。
这一数字表明,AI 大模型进入了「诸神之战」的阶段,入局的玩家不仅有 BATH 等大巨头,还有商汤、网易、360等某个细分赛道的行业小巨头。5月6日,科大讯飞也在合肥发布了讯飞「星火」认知大模型。
然而,随着大模型的数量越来越多,类 ChatGPT 的探索类应用也相继激增,不同类型的玩家在这场恶战中的辨识度却越来越趋同。GPT 时代,大巨头与小巨头如何分兵作战,成为一个需要集体探索的问题。
每一项高门槛的新技术都会改革现有市场的权力格局,且出现几家大巨头。
以云计算为例。云计算在国外最早的名称是「Utility Computing」(效用计算),是一个经济学用语,指代经济社会的公用基础设施。与电力、通信相同,云计算也在不同地区的发展中诞生了几家大厂商,如美国的微软云、谷歌云、亚马逊云,中国的阿里云、腾讯云、华为云、百度云等。
大模型同样是智能时代的基础设施,因此行业人士分析,在 GPT 时代,或真正的人工智能时代,智能算法就像电力一样,不是所有玩家都能建得起发电厂,所以必将诞生几个头部的「大模型运营商」。目前,国内大玩家正遵循这个路线:底座做通用大模型,To C,然后在通用大模型的基础上建行业垂类大模型,To B,通过 B、C 联动的方式筑围墙,建立自己的生态。毫无疑问,小巨头在其中,很难突围。
然而,诚如上述,头部巨头的格局还在发展中,乾坤未定。此外,尽管大巨头有实力帮助行业建立垂类大模型,但在实际操作中却难以兼顾所有细分行业。因此,「其他玩家在细分赛道纵深,结合行业的 Know-How 做垂类大模型,还是有机会的。」
科大讯飞的「星火」就抓住了这个突破口。
雷峰网
科大讯飞董事长刘庆峰发布「星火」认知大模型
刘庆峰在星火发布会上介绍,星火认知大模型将走「1+N」的路线,其中「1」指通用认知智能大模型,「N」是大模型在教育、办公、汽车、人机交互等各个领域的落地。换言之,星火在技术研发上是通用大模型,落地上则是行业垂类大模型。 雷峰网 (公众号:雷峰网)
这个玩法兼顾技术、用户与赛道,能够发挥讯飞的特长,规避资源调度的短板,开辟了一条小巨头抢跑 GPT 的新路径。 雷峰网
01 讯飞凭什么?
相比其他玩家,讯飞的入局并不令人意外。
作为一家人工智能企业,科大讯飞经过 20 余年的发展,在大众还未看清一项新技术的荒芜期就有将语音从 0 到 1 、再到 100 的成功经验,成为国内 AI 赛道的巨头,长年霸榜中文语音市场第一,是产学研探索的佼佼者。同样,大模型也有浓厚的学术气质,走向市场化需要成功创业者的领航。
此外,自成立以来,科大讯飞的目标就是实现机器的跨模态智能。ChatGPT 之前,语音是讯飞探索机器智能的第一步;去年 11 月 30 日 OpenAI 发布 ChatGPT 后,大家开始看到以语言为核心的认知智能大模型是迈向通用人工智能(AGI)的关键路径之一,讯飞团队也自然而然地加入了大模型的探索中。
据雷峰网此前在 2021 年与讯飞研究院的交谈,早在大模型火起来之前,讯飞研究院就已经将认知与语音、视觉并列为研究院的三大重点方向,其中,自然语言处理(NLP)是认知研究的核心。2012年,讯飞就已经开始用深度学习技术研究 NLP。
2014年,科大讯飞启动「讯飞超脑」计划,开始储备认知智能技术(机器阅读理解、逻辑推理、分析归纳、知识表达等),希望机器从「能说会说」到「能理解会思考」;2017年,讯飞获批承建认知智能国家重点实验室;2022年,讯飞提出「讯飞超脑2030计划」,让机器懂知识、善学习、能进化。
长期主义精神,使讯飞储备了稳定的人才团队,其中不少成员是与讯飞多年一起成长的博士生;成熟的计算资源,目前已建成 4 城 7 中心深度学习计算平台;同时有讯飞语音的产品联动等原因,是科大讯飞能在五个月内成功研发并推出大模型产品「星火」的核心原因。
BERT 与 GPT-3 出来时,国内就已经出现一波大模型的研究热潮,各大参数规模持续攀升,千亿与万亿参数规模的大模型不在少数,但在「智能涌现」方面却与 ChatGPT 背后的技术有很大差距。
刘聪分析,除了技术细节,ChatGPT 做对了两件事:一是在产品体验上有明显的效果提升,二是选取了一个有大量活跃用户的应用作为切入口,建立了「用户调用—数据—模型迭代—更多用户—更多数据」的积极循环,强者恒强。
所以,在星火认知大模型的研发上,科大讯飞格外注重两块工作,并在发布会现场的实时演示中获得了一众好评:
一是创新人机交互方式,在原有单一文本输入的交互上加入了讯飞擅长的语音输入和输出,甚至还提前剧透了后续即将推出的多模态交互成果,例如有数字虚拟人等,能够做到语音、文本、图像、视频等多种模态的无缝连接,提升多风格数字内容生产效率;
二是曲线救国,在不擅长社交产品的情况下,选取同样能聚集大量活跃用户的社会刚需应用,如教育、医疗、出行(智能座舱),在已有的软硬件产品(讯飞录音笔、办公本、讯飞听见等)上落地,跑通「算法-用户-数据」的闭环。
「星火」认知大模型具备七大核心能力,即多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情景式思维链逻辑推理、多题型步骤级数学能力、多功能多语言代码能力、多模态输入和表达能力。现场实测效果展示了以下特色:
理解能力强,「情商高」,具备一定的常识认知水平,对生成的内容质量有很大帮助:
场景特征十分突出,如家教辅导、居家咨询,体现了「让机器人走进千万家庭」的初心:
总结来说,当前的星火认知大模型在多类语言任务上的表现不输于国内其他大模型,水平追求甚至更上一层楼,部分任务的结果不亚于 ChatGPT。科大讯飞董事长刘庆峰还称,5月6日星火大模型发布后,科大讯飞还有信心在 2023 年内实现三个迭代节点:
6月9日,实时问答与多轮对话的开放式问答能力进一步提升;8月15日,代码能力与多模态交付能力提升,并正式向客户开放;10月24日,赶超 ChatGPT,英文能力与 ChatGPT 持平,中文能力超越 ChatGPT。讯飞「星火」成功跻身国内中英双语大模型行列。
凭借之前在教育、医疗等细分领域的深厚积累,「星火」在落地具体产品上的表现也较为出色。如发布会上展示的四大成果:星火+讯飞听见,可以实时整理转写后的录音文档,智能总结;星火+AI 学习机,帮助小朋友改作业,解放家长的辅导工作量;星火+智能办公本,自动整理会议纪要;星火+智能座舱,出行协助停车、觅食、天气咨询、景点咨询等等。
一位现场观众告诉雷峰网,「讯飞星火实测的效果比我预想的要好」。这也间接说明,随着大模型的训练方法越来越公开,技术理论不再是大模型应用落地的壁垒。类似科大讯飞这样的企业虽然体量不是最大的,但一样能参与到追赶 GPT 的浪潮中。
大模型市场化的布局与挑战,更考验小巨头的生存能力。
02 讯飞的思考
谷歌的沮丧在于虽然掌握了 Transformer,却不知道如何捕捉其中的价值。GPT 降临后,大模型厂商的困惑则在于:如何在同质化严重的产品服务中杀出一条血路?
要回答这个问题,资源分配的先后顺序、产品形态的想象能力,以及商业模式的设计,都是答案的关键组成部分。如果找不到答案,现有的大模型玩家很可能陷入相同的沮丧,在他人所定义的新时代中从巨头降维打击,逐渐失去竞争力与规模优势,消失在 GPT 时代的市场版图中。
大模型火起来之后,人们开始怀念乔布斯,以及他那句著名的台词:「我们要人们还不知道自己想要什么的时候,设计出他们需要的事情。」大模型的属性同样给了人们这种感觉:在面向未来的未知中创造;唯一的变化是,创造的能力,从苹果公司的研发团队,移交到了普通用户的手中。掌握技术的企业家,将在资源与商业模式上决一胜负。
在这个背景下,科大讯飞做对了两件事。
第一件事是重视用户的产品体验。
这一点体现在语音输入为代表的交互模式创新上。以 GPT-4 为例,多模态内容的交互体现出了对机器智能的积极影响,科大讯飞也同样信奉这条精神,以长远眼光布局多模态交互,将语音、图像、视频与文本数据并驾齐驱,打造了更加符合人类信息交流习惯的交互方式,可以让用户在跟机器交流时的体验更自然。
得益于其在中文语音市场的纵深,科大讯飞以点成线、由线成面,在教育、医疗、出行与办公等领域均积累了相当的名气,同时有丰富的用户与机器交互的数据。讯飞开放平台的日使用量超过50亿人次;行业维度,以医疗为例,科大讯飞是全国唯一通过国家执业医师资格考试的人工智能系统,超过了 96.3% 的医学考生,已累计为基层医生提供了超过 5.8 亿次、日均超过 70 多万人次的人工智能辅诊。
讯飞的另一个优势是多语种知识理解,这得益于此前语音处理上的多语种产品经验。星火大模型就是国内少有的走中英双语路线的技术方案之一。多模态与多语种的知识,让讯飞的大模型具备更强的认知与理解能力,减少大模型「胡说八道」的次数,提升用户的内容生成质量。
在打造产品形态上,星火认知大模型作为发挥通用大模型作用的「1」,落在具体的硬件产品上,可以更加可控、安全、流畅,对讯飞产品的用户友好。
第二件事是商业化模式的踏实作风。
与掌握云计算的大厂商或 NLP 初创团队不同,根据讯飞研究院的院长刘聪介绍,星火认知大模型目前首先聚焦于现有硬件产品与开发者生态。
据讯飞官方数据,在教育行业,2022年,讯飞的个性化学习手册在1400所学校商业化运营,实现营收同比增长12%,2023年Q1同比增长超过40%;AI 学习机营收同比增长 53%, 2023年Q1营收同比增长超过 20%。
2022年,讯飞业务增长23%,23年Q1毛利率有一定回升。今年,科大讯飞对B端和G端项目都提出了明确的利润考核。在降本增效上,讯飞也想用大模型给自身业务降本。
在平衡通用与行业两类大模型上,科大讯飞的计划是遵循多年来的模式:平台+赛道。
目前,AI 工具还是更多地掌握在开发者的手中,因此 HuggingFace、LangChain 等平台的价值更高,因为这些平台本来就是开发者的平台。
科大讯飞董事长刘庆峰在发布会上表示,讯飞开放平台上此次升级的认知能力将不仅会给开发者提供更好的技术,还能降低创业门槛;同时还会开放插件,让大家在星火大模型中直接使用到插件的能力。
拥抱通用人工智能时代,「要么最先燎原,要么最先熄灭」,最终结果无非二选一或介于两者之间。但无论是哪一种,讯飞已点燃星火,加入了牌局中。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。