百模大战开启,AI 进入路线之争?
大模型战场再起波澜。
搜狗搜索创始人王小川创立的百川智能发布了旗下第三款大模型产品 Baichuan-53B,据介绍其训练参数高达 530 亿。而百川智能也放出风声,后续还会有多款产品发布。再加上科大讯飞的星火大模型升级、马上消费致力解决 金融 行业大模型在落地过程中的安全可控和隐私保护、基础设施能力建设等关键问题的大模型呼之欲出,进入八月后的人工智能大模型赛道再掀高潮。
那么,如此热闹的市场中,到底具备了哪些特质的大模型才最具前景,哪些困难又是当前无法跨越的,都是当前需要好好研究的方向。
百模大战开启,市场要多热闹有多热闹
自从 ChatGPT 爆火之后,入局大模型已经成为各大 科技 公司的首选。据《中国人工智能大模型地图研究报告》显示,截至 2023 年 5 月底,国内 10 亿级参数规模以上基础大模型至少已发布 79 个,而在下半年,包括科大讯飞、阿里等头部玩家也将发布最新产品,战场进一步升级几乎成为定局。
实际上,这轮百模大战甚至可以追溯到到 2020 年。当年美国就已推出了 15 款大模型,其中就包括 GPT-3。而中国随后在 2021 年也推出了 30 款大模型,2022 年更是推出了 28 款大模型,进入 2023 年,前 5 个月更是高达 19 款大模型面试,增速可见一斑。据数据统计,中美两国大模型的数量占全球大模型数量的近 90%,两极之势已经形成。
回到国内,大模型厂商几乎是当前国内顶级科技公司、机构的清单名录:百度、腾讯、阿里、商汤、华为迅速入局,智源研究院、中科院自动化所也步后尘,如此态势下更带动一大批腰部公司入场,集群效应显著。
大模型规模化增长之下,据 IDC 预测,2026 年中国 AI 大模型市场规模将达到 211 亿美元,人工智能将进入大规模落地应用关键期。
因此,对于任何大模型来说,想要在乱局之下突围,都不是容易的事,打赢战役的基础之一就是粮草充足。据 媒体 报道,由于训练成本过高,ChatGPT 的开发公司 OpenAI 仍然在 2022 年出现 5.4 亿美元左右的亏损。OpenAI 首席执行官 Sam Altman 还表示,该公司必须筹集多达 1000 亿美元的资金,才能满足不断上涨的成本。
头部大模型公司烧钱尚且不足,更不用说其他玩家了。但另一方面, 投资 热度降低也是行业内不争的事实。根据媒体统计的数据,在国内市场,从 ChatGPT 发布到现在,在 AI 大模型赛道融资事件只有 21 起。其中大多数明星独角兽企业,不是入局早具有先发优势,就是有机构大佬的背书,占尽资源才没有显得过于狼狈。
另外,需要注意的是,留给大模型讲故事的领域看似很多,但真正讲好的少之又少。连知名投资人都表示,行情再火,也要捂好自己的钱包,毕竟好的标的实在难找。从实际情况看也是如此,大牌厂商力推通用大模型,力图走赢家通吃的 互联网 路线,当下发力在整合资源层面的模型居多;而中小厂商,主打一个错位竞争,力图通过在细分领域的深耕,分得属于自己的一杯羹。
充满朝气但混乱的大模型之争,看似热闹却也暗流涌动,套用一句台词形容,当下可谓是 " 风浪越大,鱼越贵 " 的阶段。
数据投喂的噱头下,绕不开成本这道难题
当前大模型想要吸引眼球,数据投喂的量级从来都是大做文章的环节。梳理大模型发展的历史,你会看到参数规模增长的夸张曲线。
在国外,2018 年,谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向深层预训练模型,其参数首次超过 3 亿规模;2019 年,OpenAI 继续推出 15 亿参数的 GPT-2,但马上英伟达推出了 83 亿参数的 Megatron-LM,谷歌推出了 110 亿参数的 T5,微软推出了 170 亿参数的图灵 Turing-NLG,都抢走了 OpenAI 的风头。
2020 年,OpenAI 推出了超大规模语言训练模型 GPT-3,参数达到 1750 亿,而微软和英伟达联手跟进,在 2020 年 10 月联手发布了 5300 亿参数的 MegatronTuring 自然语言生成模型。2021 年 1 月,谷歌推出的 Switch Transformer 模型以高达 1.6 万亿的参数量成为史上首个万亿级语言模型。
在国内,2021 年,商汤发布了书生大模型,拥有 100 亿的参数量;2021 年 4 月,华为云联合循环智能发布盘古 NLP 超大规模预训练语言模型,参数规模达 1000 亿,联合北京大学发布盘古 α 超大规模预训练模型,参数规模达 2000 亿。
进入 2022 年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的 " 脑级人工智能模型 " 八卦炉完成建立,其模型参数规模突破了 174 万亿个,直接拉高了入局门槛。
海量数据投喂的意义在哪里?大通用性、泛化性是其追求的核心要求,那些以互联网赢家通吃思维入局的各大厂商,杀入通用大模型,也正是由于其手握海量数据,具有先天优势可以进行资源整合。
但是,对大模型来说,真的是数据越多越好吗?
首选,就是成本问题。昆仑万维 CEO 方汉认为," 超过千亿级别的大模型,训练需要投入的人力、电力、网络支出等投入,一年至少 5000 万美金到 1 亿美金。" 如果这一测算成真,那显然大模型只能是有钱人的 游戏 。
但其实,在当下的众多垂直领域,大模型的身影也无处不在。而这些领域的一个共性特征就是:投喂数据并非天文数字。
这是为什么?垂直领域下,行业数据更加精准,因此十亿级别参数甚至更少的数据,都可以支撑模型实现效果,自然花费的成本也更低廉。从这个角度解释,教育、法律、金融等行业大模型的出现,也是因为行业形成共识:钱在这个游戏中,并不是万能的。
错位竞争,腰部大模型的生存要义
通用大模型走下神坛,与其表现出来的落地障碍有关,360 集团副总裁彭辉总结为七点:缺乏行业深度、不懂企业、数据安全隐患、知识更新不及时、" 胡说八道 "、投入巨大、无法训练进大模型的核心知识的保证所有权等。
而另一边,垂直大模型却如雨后春笋一般出现。
8 月 9 日,网易有道推出 " 子曰 " 教育大模型首次落地的硬件产品——有道词典笔 X6 Pro,新增虚拟人口语教练 Echo,可实现多轮英语对话。此外还有互动问答、语法精讲功能,待机时长 100 天,起售价 1399 元。
内容层面上,首次引进经典教辅品牌《五年高考 · 三年模拟》,不局限于查词本身,词典笔还能做全科一对一辅导。
而在网易有道之前,学而思已经宣布正在进行自研数学大模型的研发,命名为 MathGPT,面向全球数学爱好者和科研机构;而在五月,淘云科技宣布推出儿童认知大模型——阿尔法蛋儿童认知大模型,为孩子在练表达、塑情商、启创造、助学习等方面带来全新交互体验。
除去教育,其他垂直领域的大模型也层出不穷:今年 4 月,知乎正式发布 " 知海图 AI" 中文大模型,知乎创始人、董事长兼 CEO 周源表示:" 知乎以应用层和数据层的独特优势,将致力于为中文互联网的大语言模型添砖加瓦。";7 月,携程发布首个旅游行业垂直大模型 " 携程问道 ",携程集团董事局主席梁建章表示,希望用户从包括 " 携程问道 " 在内的产品中获得旅游行业 " 可靠的内容,放心的推荐 "。京东紧随其后发布言犀大模型,其宣传称:" 沉淀了京东在零售、物流、健康、金融等行业多年积累的知识,融合 70% 通用数据与 30% 京东数智供应链原生数据进行训练,带来了商品推荐、金融政策、理财规则、物流体验等领域的能力。"
如此种种,让我们需要好好面对一个问题:垂直大模型,为什么火?
首先,大模型变小,成本控制更容易。与通用大模型动辄万亿级别的参数投喂,垂直大模型往往在十亿量级的参数训练就能有效果,而其数据要求的专业性、精确性,也比通用大模型囫囵吞枣般的投喂要有针对和效率,进而折射出资金、算立等资源利用率的差异。
其次,垂直大模型在解决数据安全隐患、缺乏行业深度等问题方面更具优势。以 AI 制药行业对大模型的需求为例,由于药物研发对高精度实验数据的获取成本较高,且公开数据库中有大量无标注数据,对于通用大模型而言使用这类数据投喂,显然是 " 吃的是奶,产出来的什么都不是 " 的风险。对于需要利用好大量无标注数据,又要利用好少量高精度数据的需求,垂直大模型显然是更好的选择。
最后,垂直大模型是 商业 创意实现的温床。在通用大模型的模式下,大、广、全是其追求的方向,这势必造成大模型之间功能同质化问题的出现。而垂直大模型在投入上本来就低,更适合小公司切入进来。
而小公司想要在市场中立足,在没有资源、没有实力的情况,势必要从商业 创业 与服务上做文章,说到底,定制化的服务,只要能创造足够的价值,永远不会缺乏市场。
百模大战,看起来箭在弦上了。
来源: DoNews