硅谷巨头要学会接受:「DeepSeek 现象」只是开始

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

2025 年的春节无疑已被 DeepSeek 霸屏。

过去三年每年的春节都有一次重磅的 AI 讨论:2023 年是 ChatGPT、2024 年是 Sora,这两股风潮都是由 OpenAI 掀起,而 2025 年则是 DeepSeek 的 V3 与 R1。

除夕当天 1 月 28 日,DeepSeek 更是趁热发布了文生图模型 Janus-Pro,但后者没有 V3 与 R1 吸引的关注大,原因在于其没有像前者一样动摇了过去基座大模型的「奇迹」来源:算力。

DeepSeek V3 的参数规模是 6710 亿,训练成本不到 560 万美元,训练时长在 280 万 GPU 小时。相比之下,GPT-4o 的训练成本约为 1 亿美元,Llama 3 405B 训练时长则为 3080 万 GPU 小时。

Meta 的 Llama 3 是用 16000 张 H00 训练,此前还计划在 2024 年囤卡 60 万张英伟达 GPU 去做模型升级;马斯克创立的 XAI 甚至囤卡 10 万张 H100 建数据中心

根据媒体报道,DeepSeek V3 与 R1 发布后,Meta 在内的多家硅谷企业受到极大震撼,并开始质疑以往 OpenAI「大力出奇迹」的成功方法论,引起硅谷多家科技巨头的暴跌,比如英伟达一夜之间被干掉 4.3 万亿市值,相当于腾讯与美团两家中国互联网巨头加起来的市值。

对于 DeepSeek 带来的震撼,业界不难联想到「漂亮国将出台一系列制裁政策」等等往日常规反应。

值得注意的是,在 DeepSeek 给硅谷带来地震的不久前,1 月 15 日,美国才刚将中国最早的大模型创业公司「智谱 AI」列入实体清单。AI 1.0 时代,商汤、旷视等企业也被美国列入实体清单。被列入实体清单的一大掣肘就是难以购买海外英伟达生产制造的 GPU,其在短期内仍是基座大模型训练升级的一个重要条件。但 DeepSeek 的崛起证明了:

无论他们采取怎样的「卡脖子」措施,都无法阻止中国 AI 技术的持续创新。

他们将智谱列入实体清单,但没想到 DeepSeek 紧随其后,并且采用了更低的训练成本去做模型更新与开源。同样,哪怕他们再继续将 DeepSeek 列入清单,致力于开源的中国模型厂商还有面壁、智谱、阶跃等等团队不断推陈出新。

另一个值得注意的事实是:OpenAI 在 2024 年 9 月发布推理模型 o1,但 DeepSeek 在不到 4 个月后发布的 R1 就已经能媲美 o1。这意味着,中国在大模型上的 AI 能力已经与美国的时间差距越来越小,从 2023 年到 2024 年底,这个时间差从超过一年缩短为 4 个月。

加上多位 OpenAI 前员工作证 DeepSeek 的 R1 独立发现并实现了 o1 的一些独特思想,也意味着 2025 年中国大模型的创新会更加独立、超前,不再是跟随、而是独创。

AI 的星星之火已经开始燎原,难以再被扑灭。

燎原之势

DeepSeek 在硅谷引起的震荡,验证了海外对中国 AI 技术创新的「始料未及」,同时也验证了中国 AI 创新的可能性与巨大潜力。

此前在多数人包括国人的心中,中国的大模型没有独立创新能力,要跟随海外顶尖团队的步伐。也是因此,DeepSeek 带来的震撼才会如此之大。设想一下,如果是 OpenAI、Anthropic 或谷歌等美国公司发布了相似的成果,2025 年春节还会这么热闹吗?

正是因为竞争来自从前未曾意料到的对手,昔日的巨人才会被打得措手不及。

值得注意的是,在被忽视或吐槽的一年中,2024 年中国的大模型已经跋涉千里,且不像海外,国内多家创业公司的模型像 DeepSeek 一样都是开源的。2023 年被称为「百模大战」,主要集中在单一的文本模态,但 2024 年的模型更新实则更猛:不仅数量更多,模态、尺寸、性能覆盖也更多。

海外团队必须开始正视一个既定事实:昔日他们眼中的技术「矮子」已茁壮成长,并可能成为下一个「巨人」。

笔者粗略统计了一下,除去字节、阿里、百度等大厂,从 2024 年到 2025 年 1 月,单单是大模型创业公司就发布了超 50 个模型数量。

先看第一梯队中两个对标 OpenAI、角逐基座模型的厂商智谱与阶跃:

2024 年,智谱一共发布与升级了超 10 款基座模型,包括文本、图像、语音、视频、代码生成等多个领域,如基座语言大模型 GLM-4 与 GLM-4-Plus,垂类模型 CharacterGLM(6B 开源)、AutoWebGLM,视觉大模型 CogVLM2,文生图模型 CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX,端到端语音大模型 GLM-4-Voice,CogVideoX系列模型(2B、5B、5B-I2V)等等。

智谱还开源多款模型,包括 GLM-4-9B、CodeGeeX 第四代模型、Video版CogVLM2、CogVideoX-2B与5B、CogAgent-9B、CogVideoX v1.5-5B 与 CogVideo v1.5-5B-I2V 等等超 10 款模型。1 月被列入实体清单后,智谱更发布了端到端模型 GLM-Realtime,同步升级了 GLM-4-Air 和 GLM-4V-Plus 模型。

而阶跃星辰在 2024 年发布了超 8 款模型,包括多模态大模型 Step-1V 与 Step-1.5V、图像生成大模型 Step-1X、视频理解模型 Step-1.5v-turbo、视频生成模型 Step-Video、语音复刻和生成大模型 Step-tts-mini、语音识别大模型 Step-asr 与语音大模型 Step-1o Audio。2025 年 1 月,阶跃又更新发布升级了 6 款模型,包括多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级、视频生成模型 Step-Video 升级至 V2 版,发布了 Step 系列的首款推理模型 Step Reasoner mini,以及小模型 Step R-mini 和 Step-2 文学大师版。

即使是在外界看来专注 C 端产品应用的月之暗面与 MiniMax,也发布了多款产品:

月之暗面发布了 K0-math、Moonshot-v1 系列文本与多模态模型。MiniMax 发布了同是 MoE 架构的千亿参数模型 abab6 与万亿参数模型 abab6.5,2025 年 1 月又发布了基础语言大模型 MiniMax-Text-01、视觉多模态大模型 MiniMax-VL-01、视频模型 S2V-01、语音模型T2A-01,并首度开源。

专注医疗与行业应用的百川智能也发布了超千亿参数模型 Baichuan 3、Baichuan 4 等模型,但没有开源。

除智谱外,另一家一直与 DeepSeek 相提并论的是清华团队面壁智能。此前,面壁小钢炮模型被斯坦福团队抄袭,在圈内引起轰动,其与 DeepSeek 一样押注模型的高效训练,一样开拓了模型架构的稀疏化创新路线,并通过端侧小模型验证了其所提出的「Densing Law」(即模型的能力每 3.3 个月翻一番),2024 年以来发布了 8 款基座模型、多模态模型,陆续把 GPT-4V、GPT-4o 等巨无霸标杆进行极致智能压缩,放到了迷你尺寸的端侧模型上。在芯片禁令下,这两家因高效低成本技术探索,从去年就双双成为外媒重点关注对象。 (想进一步了解的读者可以阅读《大模型隐藏玩家上桌:DeepSeek 向左,面壁向右》)

同样,面壁智能的模型也对外开源,与 DeepSeek、通义千问在海外被统称中国大模型的「开源三剑客」。DeepSeek 的崛起被认为不仅是中国大模型与美国大模型的对抗,也是开源模型与闭源模型的对抗——答案显而易见,开源模型更胜一筹。

以 50 款基座模型的更新速度来计算,2024 年中国大模型圈平均每个月发布或升级 4-5 个 AI 模型,其中 1/3 在 GitHub 与 Hugging Face 上开源。综合种种,不难推断,美国想要通过管制人才、芯片等方式来遏制中国 AI 技术发展的时代已经过去。

海外需要接受中国技术创新力量的崛起是既定事实,国人也要对国产创新有更大的信心。

黑马赛出,竞争生变

雷峰网 (公众号:雷峰网) 创始人林军在书写中国科技史的过程中,通过观察中国互联网与移动互联网的崛起,总结出一个规律,其认为:每个时代角逐到最后,往往只有四类企业各凭本事胜出,一类是靠资本/资源,一类靠商业模式,一类靠技术/产品的创新,以及永远有一类是所有人都想不到的黑马。

这个规律可以对应 PC 互联网与移动互联网时代的所有终局者,AI 时代也大约不会有太大的变化。大模型的竞争还未尘埃落定,最终赢家还未确定,但 DeepSeek 无疑已经是业内公认的一匹黑马,其 V3 与 R1 带来的影响甚至远超 OpenAI 的 o1。

根据相关消息,DeepSeek 至今仍未计划对外融资,其主要依托幻方与梁文锋个人输血,但对中国其他大模型公司的融资与战略也将带来不小的震撼。据笔者观察,春节期间不仅硅谷动荡,国内其他几家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。

DeepSeek 的崛起,肉眼可见将从以下几个角度影响中国大模型的竞争:

首先是技术创新的天花板被拉高。

DeepSeek 不是第一家提出「要在 OpenAI 以外创新」的大模型团队,此前其他国产大模型团队的创始人也提出过相似的观点,但 DeepSeek 是第一家通过发布新技术、身体力行践行了这一观点的团队。

V3 证明了训练千亿基座大模型的成本可以进一步将下降,R1 的独创(如完全用强化学习替代 SFT)证明了 OpenAI 并不是唯一能够提出 AGI 解法的公司。尽管 GPT-5 迟迟未发布、大模型一度被认为已停滞不前,但 DeepSeek 在近两个月的研究突破表明:大模型的潜在技术空间仍然是非常大的。

放弃预训练的团队,或许是资源不足,也或许是技术创新力不够。这也验证了大模型的技术创新在短期内存在高壁垒,应心存敬畏。

其次是「高效训练」的概念将得到重视。

在当前的第一梯队大模型公司中,「高效训练」并不占主流观点。例如,MiniMax 的大模型虽然也是采用 MoE 架构,但在其他高效训练的方法创新上不见明显发力。反而是第二梯队的面壁智能一度通过端侧模型引起业内关注。但在 DeepSeek 受追捧前,即使面壁智能、乃至一切企图颠覆 Transformer 架构的基座模型研究都不受重视。

此前大算力训练是基座模型厂商融资与构建壁垒的竞争砝码,但 DeepSeek V3 的参数规模为 6710 亿、训练成本却不足 560 万美金,过去大算力出奇迹的粗放方式也受到了质疑。接下来,高效模型不仅是 DeepSeek、面壁与通义等开源拥趸的追求,在其他模型团队的优先级上也会更加靠前。

高效训练的目标在于用更小的参数规模、更小的训练成本来实现更高的性能。以面壁小钢炮系列为例:MiniCPM 3.0 只有 4B 参数就能带来超越 GPT-3.5 的性能,量化后的内存仅 2GB;MiniCPM-o 2.6 的参数规模仅 8B 就逼近了 GPT-4o,而且实现了实时流式的全模态看听说,在“真视频”等很多功能上达到了以端胜云的效果。

DeepSeek 有训练条件,此前传出有一万张卡,其做法是先做大再做小,而面壁智能由于融资与算力所限,并没有采取先做大再做小的方法,而是直接做端侧小模型。蒸馏后的小模型更擅长特定任务,在部分任务上的表现或不如通用模型,但在个人移动设备的部署上已绰绰有余。未来或许可以结合定制化芯片开拓出新的市场。

此外,大模型技术与产品创新的分野会更明显。

事实上,在 DeepSeek 火爆之前,大模型的应用与技术竞争就已出现分流;DeepSeek 火爆后,分野会更加明显,且由于 DeepSeek 的模型均是开源,交付模型的商业模式或将产生新的变动。

在 2023 年到 2024 年上半年,由于基座模型的进展较慢,交付基座模型与行业模型的商业模式尚有利润空间。虽然这一模式没有打破 AI 1.0 的范式,但其对创业公司的迅速增收是十分有利的。但随着 Llama 等开源模型的兴起,加上 DeepSeek 的开源,模型中文任务能力的信息差也被打破,模型的商业价格在开源的免费价格前失去优势,商业模式也或不复存在。

如前所述,DeepSeek 的技术创新仍具有高壁垒,而技术的创新根源还是在人才。国内最顶尖的计算机人才在清华,传闻 DeepSeek 的研究团队也主要以清北竞赛人才为主,这意味着能够继续参与基座大模型竞争的团队也将越来越精、同时越来越少。

国内除了 DeepSeek,另外集结了较多清北毕业生的团队只有智谱、面壁、月之暗面与阶跃。这也意味着,2025 年,大模型创业公司的格局或许还会进一步生变。此外,2024 年字节跳动也重金挖了很多牛人,但字节本就财大气粗,不作更多讨论。

除了技术创新,产品想象力将成为 2025 年与之后参与大模型市场的主要条件。除了技术创新,通过拢资源、商业模式与产品创新来取胜,也是更多创业团队的形势所驱。

举例来说,MiniMax 虽然没有在技术上取得头筹、但其仍受到业界追捧的一个重要原因,就是在于产品与商业模式的创新,在 C 端与出海上都领先其他团队。如外媒报道属实,MiniMax 在 2024 年的营收超过 7000 万美金,将是国内营收最高的大模型创业公司。

加上 DeepSeek 强大基座模型的开源,AI 产品的创新动力也会更大。卷不起基座模型的创业团队将更多的精力放在卷产品与应用上,也不失为市场的幸运。

当前业内心照不宣的观点是:靠产品与商业模式取胜的前景远比技术创新取胜更大。

以 AI 1.0 时代的一家独角兽为例,其上市前估值 2000 亿港币、开盘后 800 多亿,最低跌到 200 多亿,如今只有 500 多亿。如果单靠技术创新与传统的商业模式来盈利,多位 VC 认为技术驱动的大模型公司也无法打破上一代独角兽的天花板。 雷峰网

对于大模型企业来说,可参考的发展对象是上一代 AI 独角兽。因此,当前哪怕是智谱、阶跃等被视为技术主导的大模型公司在商业模式上也不断求新,并谋求突破 C 端的应用与收入。

最后,是中美 AI 的较量会得到重新思考。

随着 DeepSeek 与面壁等团队在高效训练上的成功实践,被 GPU 卡脖子的危机也将降低,国产模型与应用的更新自主性也会加大。

如前所述,此前国产大模型在训练上受到 GPU 数量与规模的限制,大家在思考破局之路时也是首先从芯片端入手,但无奈国产芯片的进展迟迟无法替代英伟达。但 DeepSeek 的 V3 发布后,大家开始注意到:算法架构的创新同样可以实现大模型训练与部署的成本下降。 雷峰网

例如,DeepSeek 的 R1 采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe 算法等设计,并进行了只采用 RL 而不作 SFT 的训练尝试,但在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版。

R1 的训练成本暂未披露,但不难推测其远远低于 o1 的训练成本。此前爆料 DeepSeek 的 GPU 卡规模是一万,这个数字比国内的许多大模型公司都多,可跟硅谷的多家巨头比是「小巫见大巫」,但也未见 Meta 等团队率先发布能够媲美 o1 的模型。

同样,先不论 DeepSeek,此前面壁也曾用一个 2.4B 的小模型 MiniCPM 实现了对标 Llama 2 13B 的性能,而前者具体数据的配比、参数配置是用十分之一甚至更小的模型训练、预测出的。这种以小见大的路径证明了:当参数潜力被激发,小模型完全能使用更高效的训练方式实现更好的性能。

届时,无论是 OpenAI、Anthropic 是否坚持闭源,或漂亮国坚持芯片出口的管制,在 DeepSeek、面壁这类团队的研发创新下,用更小的算力成本来独立开拓更强的 AI 模型都不再是天方夜谭,反而潜力与日俱增。

再加上国内 AI 人才培养较之十年前已是另一番模样,且 AI 应用爆发后,擅长推理的国产芯片呼之欲出,国产 AI 的独立创新、快速落地实则早已孕育胎中。身处局中的我们,要学会的第一件事,或许就是:AI 技术的民族自豪感。 雷峰网


雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

硅谷巨头要学会接受:「DeepSeek 现象」只是开始

随意打赏

提交建议
微信扫一扫,分享给好友吧。