阿里秘密研发新模型将发布,影响力指标成最重要考核

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

出品|虎嗅商业消费组

作者|苗正卿

题图|视觉中国


虎嗅独家获悉,阿里即将在2025年4月第二周发布新模型Qwen3,这将是阿里在2025年上半年最重要的模型产品,距离2024年9月阿里在云栖大会上发布Qwen2.5过去了大约七个月的时间。


据虎嗅独家了解,在2024年发布Qwen2.5后,阿里云内部的基础模型团队已经开始推动Qwen3相关项目。但2025年初DeepSeek的火爆,改变了团队的部分思路与重心。“2024年四季度,圈内已经意识到模型的推理能力很重要,但还不能说是最重要的方向,DeepSeek火爆后,推理能力已经成为绕不开的关键能力。”知情人士告诉虎嗅,DeepSeek-R1发布后,阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。


值得注意的是,在2024年下半年,阿里云基础模型团队对标的竞品模型主要是OpenAI的o1,而在DeepSeek-R1发布后,DeepSeek-R1已经成为了另一个主要对标模型。


虎嗅独家获悉,在阿里内部,基础模型团队最重要的考核维度是“模型影响力”。在内部,高层希望团队可以在业内成功塑造“最强模型”的心智。阿里集团CEO吴泳铭同时兼任阿里云CEO,据悉吴泳铭频繁参与到基础模型团队的业务沟通之中,并密切留意模型团队的各种进展。


两个具体的维度,被视为阿里基础模型团队的考核点:其一是衍生模型量,其二是在开发者社区的受欢迎度。


由于阿里采取模型开源策略,基于Qwen开源模型的衍生模型总量,被视为一个关键指标。截至目前,这一数据已经超过10万。而在开发者社区的欢迎度,阿里会考虑多个具体指标,比如开源模型下载量等。虎嗅获悉,2024年Qwen系列模型在开发者社区的下载量超过了2亿。


“在开发者社区之中,一个模型的影响力,主要有两个维度:一个是下载量,一个是衍生模型数。基于下载的开源模型,微调而成新的衍生模型后,需要重新上传至开发者社区。所以这两个维度可以比较好地反映一个开源模型的人气。”一位知情人士告诉虎嗅,在阿里内部针对全球开发者的模型影响力相关心智指标,从2024年开始就被高度重视,这和吴泳铭等技术出身的高管熟稔技术圈文化有关。


虎嗅另外独家获悉,2025年阿里模型团队也意识到了诸如智驾、AI Agent、AI硬件等机会风口的存在。为了更好地契合这些场景,基础模型团队依然会采取“多尺寸”策略。2024年发布的Qwen2系列,总共发布了7种不同的模型尺寸,而即将发布的Qwen3尺寸类型可能会更多。


值得注意的是,伴随Qwen3发布,阿里正在开启史上最大规模的校招,而虎嗅获悉,校招的HC之中涉及到基础模型团队的岗位量也达到史上最高。和以往不同的是,目前基础模型团队在招人过程中,更看重人才的“AI原生”,也就是说更希望引入一开始接触的就是大语言模型的人才,而非传统的NLP人才( 自然语言模型 )。


文章标题:阿里秘密研发新模型将发布,影响力指标成最重要考核

文章链接:https://www.huxiu.com/article/4187485.html

阅读原文:阿里秘密研发新模型将发布,影响力指标成最重要考核_虎嗅网

本文被转载1次

首发媒体 虎嗅网 | 转发媒体

随意打赏

提交建议
微信扫一扫,分享给好友吧。