阶跃星辰再拿多模态榜首，全方位升级发布六款模型

雷锋网 • 2月前扫码分享

作者｜朱可轩

编辑｜陈彩娴

春节将近，各家厂商似乎都在争取休假前的最后一博，此时步入 2025 年也才半月有余，大模型玩家们已然卷上了新高度。

先是 OpenAI 打响了开年第一“枪”，ChatGPT 上线了新功能“Tasks”，主打提升了任务执行能力，之后国内一众厂商也先后发布了自家成果——

月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview；MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01；生数科技上新了视频大模型 Vidu 2.0；

接着，智谱 AI 推出了端到端多模态大模型 GLM-Realtime；面壁智能带来了端侧多模态模型 MiniCPM-o 2.6；DeepSeek 开源了 DeepSeek-R1 推理模型......

刚开年，模型更新便多到让人眼花缭乱，当中也不难发现，多模态、推理和端侧依旧是今年各家寻求突破的重点方向。

不得不提的是，在这一各厂商密集上新的“黄金节点”，AI 科技评论关注到，阶跃星辰一周内竟一口气批量更新了 6 款模型，全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

阶跃的更新速度在国内大模型厂商中可以说是非常少见，自 1 月 16 日开始，撇开周末双休，阶跃这波几乎一天一更，主打保质超量完成任务。

最为值得一提的是，多模态领域其实一直都是阶跃的舒适区，其去年就已经发布了 8 款相关模型，且在多个业内权威榜单中拿下国内第一。

在此次模型上新中，阶跃也继续带来了多模态基座模型的新成果——多模态 Step-1o 系列推出多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级，视频生成模型 Step-Video 升级至 V2 版。

值得关注的是，阶跃在多模态推理也已开始崭露头角，其正式发布了Step 系列的首款推理模型 Step Reasoner mini （简称“Step R-mini”），同时，正在推进视觉推理模型的研发，尝试将推理能力融入更多交互形态的大模型中。

除多模态外，阶跃的语言模型能力也不可小觑，文字创作一直是阶跃旗下模型的一大优势所在，此次阶跃也同期发布了小模型 Step R-mini 和 Step-2 文学大师版，继续强化 Step-2 模型的创作能力。

2025 年的模型之战已然打响，而阶跃在开年便已火力全开，在多模态方面更是呈现出“卷王”之姿，迅速与其他厂商拉开了差距。

多模态「卷」王之王

多模态是阶跃一直以来在持续发力的重点方向，也是阶跃的优势所在，去年成立以来，阶跃便已在多模态领域推出了 8 款大模型：

包括 Step-1V、Step-1.5V 两款多模态大模型；Step-1X 图像生成大模型；Step-1.5v-turbo 视频理解模型和 Step-Video 视频生成模型；三款语音大模型——Step-tts-mini 语音复刻和生成大模型、Step-asr 语音识别大模型和 Step-1o Audio 语音大模型。

近日，阶跃更新了多模态 Step-1o 系列成果，值得一提的是，Step-1o 也在国内权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单中拿下了第一：

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

说回新成果，首先，阶跃在 Step-1o Audio 的基础上带来了升级，这款国内首个千亿参数端到端语音大模型距离首发刚过去一个多月，阶跃便又迅速迭代了新版本，较之上一版实现了更低延迟，声音也更为自然。

在通话过程中，Step-1o Audio 升级版不仅能感知理解情绪，还能结合语境，深度理解情感需求，提供最佳回应：

在向其吐槽生活中琐碎的事情如“开了一天车感觉很累”，她能在夸奖我们“真能干”的同时给出诸如“喝口水、吃点东西补充能量”的建议，再如围绕“最近接单很多，感觉腰很酸痛”这一问题，她也能一边感叹生意红火，一边建议我们要注意身体，记得去医院看看，人情味满满。

此外，升级版也已支持多语种和多方言的对话，并能在中英交流中达到“同传”。

不止是语音，视觉方向也一并实现了焕新升级。

阶跃同期推出了 Step-1o Vision 多模态模型，作为 Step-1o 的视觉版本，与 Step-1V 和 Step-1.5V 两款更早版本的视觉理解模型相比，实现了模型架构升级，并在在视觉识别、感知、指令跟随、推理等任务上实现大幅提升，拥有了更强的视觉性能。

此前，在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 榜单中，Step-1V 便已位列视觉领域国内大模型第一，总分同 Gemini-1.5-Flash-8B-Exp-0827 持平。

这次升级版的 Step-1o Vision 又一战成名，刚刚发布便在 1 月 20 日 LMSYS Org 最新榜单中，拿下了国内视觉领域大模型第一，超过所有国内大模型厂商，保持住了在多模态领域的领先地位。

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

LMSYS Org 网址：https://lmarena.ai/

据阶跃官方介绍，Step-1o Vision 能够更准确地识别图像内容，不管是复杂场景还是相似图片都能轻松识别，甚至能精确识别图中的多种语言。

此外，Step-1o Vision 不仅能看懂图片，还能根据图片内容进行推理、辅助答题、激发灵感：

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

同 Step-1.5v 相比，Step-1o Vision 所关注到的细节也更多：

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

图源阶跃星辰

值得一提的是，在推理模型的研发上，阶跃也正在融入其所擅长的多模态，多模态推理在此次上新中崭露头角，其重磅推出了 Step 系列首款推理模型 Step R-mini，这同时也意味着阶跃成为目前基座模型最全的公司之一。

根据阶跃方面数据显示，Step R-mini 不仅在 AIME 和 Math 等数学基准测试上，成绩超过了 o1-preview，比肩 OpenAI o1-mini，在 LiveCodeBench 代码任务上，也比 o1-preview 效果更佳。

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

从具体效果上来看，Step R-mini 既擅长主动进行规划、尝试和反思，又能通过慢思考和反复验证的逻辑机制提供准确可靠的回复。

同时，其最鲜明的亮点在于，已经通过大规模强化学习训练，并使用 On-Policy（同策略）强化学习算法，实现了“文理兼修”，既擅长通过超长推理能力，解决逻辑推理、代码和数学等复杂问题，也能兼顾文学创作等通用领域。

在实际应用中，只会做数理题的模型其实是很难实现推广落地的，而只有做到“文理双修”，模型才能在具备较强推理逻辑能力和数理能力的同时，拥有更通用任务的解决能力，如此进一步提升可用性。

语言推理模型外，阶跃也在推进视觉推理模型的研发。

其试图将推理能力融入更多交互形态的大模型中，针对复杂视觉场景下的 Reasoning 问题，引入慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。据 AI 科技评论了解，这一模型的正式版本将在今年上线。

除了前所述三款模型，阶跃此番针对 Step-Video 视频生成模型也进行了升级，推出 Step-Video V2 版本。

Step-Video 是阶跃在去年 11 月上新的模型，此次发布的V2版本在复杂运动、美感、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。

AI 科技评论也对此进行了一波实测——

我们发现，在输入“小男孩变身毒液”后，Step-Video V2 能自动一键润色出细节更丰富的内容，并补充暗色调、模糊背景等环境描写，自然将这部分融入视频场景中：

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

同时，对于镜头语言也进行了增添，自动帮我们决定了以“特写镜头”展现，有效提升了视频的叙事能力。此外，画面中的小男孩形象逼真，一整套变身过程也非常流畅、自然。

此外，Step-Video V2 也支持中英双语输入，在进行复杂运动展现这方面也能轻松驾驭。

值得一提的是，生成内容的美感也是阶跃一直在聚焦突破的方向，这一点从其前面推出的 Step-2 文学大师版也同样能窥见，而 AI 生成视频的美学素养也是很多现有模型还无法兼具的，对此，我们也在跃问视频中进行测试：

以中华传统文化的展现为例，我们向跃问输入了“身着传统服饰、打着伞的女子”“灯笼背景”的提示词，其能自动润色出“穿着一袭红色的旗袍，上面绣着精致的花纹，手持一把纸伞，伞面是白色的，上面绘有水墨画，与她的服饰相得益彰。”这些带有中国风特色元素的内容。

所生成的视频整个画面色彩很协调，当中融入了中国红作为主色调，背景的灯笼也并非死板的单一色彩，并能隐约看到布景中的水墨画，此外，对于提示词中提到的“带有精致花纹的红旗袍”“印有水墨画的伞”这些细节也能够覆盖还原到。（前述完整测试视频见：https://mp.weixin.qq.com/s/UWHM38XoXM13IK-Sf9wY6A）

「文学素养」领先行业

多模态模型俨然成为阶跃的拿手好戏，但其自研的语言模型实力也同样不容忽视。

去年 3 月，成立之初的阶跃发布万亿参数语言大模型 Step-2 一鸣惊人。而 Step-2 作为国内首个由创业公司发布的万亿参数大模型，直观体现了 Scaling Law 定律的红利。

在阶跃看来，对于语言模型而言，Scaling Law 是重中之重，而模型容量、训练数据量是模型语言、文字功底的基石，模型小、预训练数据量小无法实现智能涌现，亦无法把握文字。

Step-2 也曾多次在 LiveBench 等国际权威榜单上位列国产大模型第一。

去年11月，在 LiveBench 的多项测评标准中，Step-2 在 IF Average（指令跟随）的表现上以 86.57 的分数排在第一，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

这一指标主要衡量模型对语言生成细节的控制力，而这点在文字创作上的表现尤为显著。在生成高质量、有创意的文字内容的同时，Step-2 模型是能够根据用户的指令对文本进行精确调整和优化的。

此次，在 Step-2 的基础上，阶跃又带来了性价比和商用性更高的 Step-2mini 语言模型和精于创作的 Step-2 文学大师版。

据阶跃官方介绍，和万亿参数大模型 Step-2 相比较，Step-2mini 以 3% 左右的参数量保有了其 80% 以上的模型性能。

同时，Step-2mini 还拥有更快的生成速度和极高的性价比——在输入4000tokens的情况下，Step-2mini 的平均首字时延仅 0.17 秒，输入 1 元/百万 token；输出 2 元/百万 token。

从底层技术上来看，Step-2mini 采用了阶跃和清华团队在《Multi-matrix Factorization Attention》中提出，其自主研发的新型注意力机制架构——MFA（Multi-matrixFactorizationAttention，多矩阵分解注意力）及其变体 MFA-Key-Reuse。

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

论文链接：https://arxiv.org/abs/2412.19255

此前在 LLM 推理阶段，传统注意力机制存在着 KV 缓存随着批处理大小和序列长度线性增长的情况，这不仅使得内存占用大，推理效率也并不高，常用的 MHA（Multi-HeadAttention，多头注意力）也一直在尝试解决这一问题，但其存在性能和资源消耗间的平衡难题。

MFA 则针对前述问题给出了解法，相比于 MHA 架构，MFA 节省了近 94% 的 KV 缓存开销，拥有更快的推理速度，并大幅降低了推理成本。换言之，MFA 在不增加额外工程复杂度的前提下，解决了大语言模型高效推理的显存瓶颈问题。

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

Step-2 文学大师版则是阶跃专为创作场景研发的语言模型，沿袭了 Step-2 广袤的知识储备以及对文字强大的细节把控能力，同时也有着更为强大的内容创作能力。

此前，用大模型辅助创作的内容就经常会被吐槽一眼 AI，创作出来的内容往往缺乏锐度和新意，没有真情实感和对社会事件的描绘与思考，这本质上是模型过度对齐社会共识所致。

而好的内容创作模型则是需要充分理解用户创作需求的，逻辑严密、语言凝练、言之有物、节奏紧凑，并且拥有深刻思想和和独特风格，才是这类模型要达成的目标，Step-2 文学大师版的测试结果恰恰印证了这点：

例如，让跃问以明朝为背景创作第一人称悬疑小说，并融入《明书·太祖载记》的内容，带有天灾、地裂、克苏鲁等元素。其所创作出的内容确实有模有样，所有关键词无一遗漏，甚至对于天灾、地裂的描述衔接也十分流畅，在克苏鲁这一怪物形象的塑造上也很生动。科幻小说其也同样不在话下：

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

基模领域「六边形战士」

现如今，随着基座大模型玩家洗牌，竞争已进入更加白热化的下半场，一边是对 AGI 理想的坚持，一边是面对现实的妥协，部分厂商仍在摸索基座大模型的未来，另外一部分则在技术和产品间反复横跳，亦或是直接改变了方向。

阶跃则一直属于前者，从基座模型来看，阶跃其实也是国内为数不多已形成从理解到生成、从文本、多模态到推理全系列模型矩阵，并坚持预训练，继续冲击 AGI 的大模型创业公司之一。

自成立初起，阶跃便一直坚持认为——多模理解和生成的统一是通往 AGI 的必经之路，而模型的演化必然会经历单模->多模->世界模型三个阶段。

其技术发展也是沿着“单模态—多模态—多模理解和生成的统一—世界模型—AGI（通用人工智能）”这条路径一步步走来的。

当前，阶跃的多模态应用已经愈发广泛，并被业内多数开发者所认可，持续领跑行业：

例如，网红 AI 应用胃之书的开发者赵纯想就曾表示，通过 AB 测试发现，阶跃星辰的模型付费率最高，而 AI 心理疗愈应用林间疗愈室 CEO 李神龙也在接入阶跃的多模态理解大模型后，实现了用户付费率的提升。

而从整体上来看，无论是去年一月一更的 11 款基座大模型，还是今年一开年便加大攻势推出的 6 款模型，在如此厚积薄发下，阶跃的技术发展无疑已驶入快车道，而其低调务实的做派下也尽显追逐 AGI 的野心。

如今的阶跃星辰，无疑已经成为了基座模型领域的“六边形战士”。雷峰网雷峰网 (公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。