DeepSeek出圈,AI模型开启终端侧「范式转移」
“在资源受限的端侧,有了DeepSeek的蒸馏模型之后,比如原来只能部署7B模型的场景,现在能达到14B模型的效果,让端侧AI的能力上一个台阶。”芯片工程师哲宇认为DeepSeek的出现对生成式AI的普及意义重大。
DeepSeek的出现让终端侧AI的表现超越了一年前仅能在云端运行的模型,端侧AI蓄势待发,高通作为连接和计算领域的领导者,也正在加速终端侧AI时代的到来。
去年,高通公司总裁兼CEO安蒙(Cristiano Amon)就表示, “AI推理正在向数据所产生的边缘侧转移。 边缘侧和终端侧AI实现了AI功能的扩展,提升了AI的性能和效率。 它兼具即时性、可靠性和极低时延。 数据保留在终端, 有助于保障隐私性和个性化。”
最近高通发布《AI变革正在推动终端侧推理创新》白皮书后,高通公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)表示, AI推理和处理正在全面向终端侧转移。 而从硬件、软件到生态的全面适配,高通将加速终端侧AI时代的到来。
高通也正在引领端侧AI多模态的发展。 2025年世界移动通信大会(MWC 2025)上,搭载骁龙8至尊版的智能手机演示了采用AI智能体作为用户界面,对音乐、导航、天气和信息等任务的处理。搭载骁龙X系列的商用PC,也具备多模态AI的能力。
DeepSeek「降本增效」,AI正在成为终端侧新的UI
终端侧AI是将AI直接部署在终端设备上,对本地数据进行处理、分析以及决策。在过去一段时间里,终端侧AI的发展受制于模型部署需要 消耗大算力、占用存储空间以及高昂的开发成本。
DeepSeek出现后, 高效“小”模型开始涌现 ,新的蒸馏模型,保持准确性的同时迁移知识, 实现更快的推理速度、更少的内存占用和更低的算力需求,让端侧AI也能有媲美云端AI的效果。
LiveBench.ai数据显示,对比同为700亿参数的Llama 3.3和DeepSeek R1蒸馏模型各项性能表现,结果显示 蒸馏能够在推理、编程、数学和数据分析任务中显著提高性能。
蒸馏小模型与前沿大模型的性能差距正在缩小,量化、压缩和剪枝等进一步优化技术,推动了较小的高质量生成式AI模型的激增,在2024年发布的大规模AI模型中, 超过75%的模型参数在千亿规模以下。
丰富的小模型为边缘AI开发者提供了多样化的选择, 以用于开发应用和AI智能体。
“这意味着我们关注的焦点已不再是模型本身, 而是演进到终端上的应用发展。 ”马德嘉说,“随着终端侧可以运行越来越多高质量的AI模型,越来越多的AI应用和用例开始涌现。 AI正在重新定义所有终端的用户界面,这也意味着,AI正在成为终端侧新的UI。”
未来,不同的信息输入类型将不直接应用于某个具体的App,而是先传输到AI智能体,AI智能体接收后再将工作负载分配给后台的不同应用,所有的处理任务都将由AI智能体直接完成。
对于终端用户来讲, AI智能体就是唯一在前端与他们交互的UI ,而所有实际应用的处理都是在后台完成的, 用户全程“无感”。
除了简化原有的APP交互之外, AI智能体对复杂任务的推理同样让用户体验“丝滑”。 马德嘉在骁龙8至尊版刚发布时表示:“智能体能够执行更加复杂的任务, 尤其是那些指令不明确的任务。”
引领AI推理——软硬件「协同」以及AI Hub「加持」
如何 突破算力以及应用生态的限制 助力终端侧AI的发展?构建硬件、软件及生态协同的全面解决方案是高通给出的答案。
追求高效处理、保持电池续航对终端侧AI的用例至关重要,高通通过提供 集成定制CPU、NPU、GPU和低功耗子系统的SoC芯片 ,在硬件层面实现能效与功耗的双重性能优势。
马德嘉表示,有些友商可能在他们所属的领域里比较出色,但是鲜有厂商能像我们一样, 同时具有行业一流的CPU、GPU和NPU,这是我们独特的优势。
以最新发布的骁龙8至尊版移动平台为例,其自研的第二代高通Oryon CPU 性能较上一代提升45% 、Hexagon NPU AI 性能和能效均提升45% ,而最新的Adreno GPU 性能提升40%,且功耗降低40%。
在搭载骁龙8至尊版的最新智能手机上,我们已经看到了诸多创新的AI智能体应用涌现,以小米15系列为例,其AI智能体“超级小爱”推出两项AI功能, “AI记忆能力” 可以协助用户管理个人信息、日程及收藏等, “多模态交互能力” 则让超级小爱能理解屏幕中的信息并进行交互反馈。
而为了在平台上充分释放AI潜能,高通构建了强大的AI软件栈与之协同。软硬件协同让高通构建出更强的竞争力,资深AI从业者对雷峰网 (公众号:雷峰网) 表示, 同样实现一个功能,代码写得好,效率就会高很多。
高通构建的AI软件栈包括库、SDK和优化工具,能够简化模型部署流程并提高性能。以图像生成为例,图像扩散模型Stable Diffusion通过高通AI Stack进行全栈式AI优化,结合骁龙平台上的NPU等领先AI处理器组件,两年前就能在终端侧于15秒内完成20步推理生成AI图像, 无需访问云端,为用户提供高效且可靠的交互式体验。 如今,骁龙平台已经支持在终端侧运行高达100亿参数的模型和70亿参数的多模态大模型。
“开发者不需要知道硬件端的具体设计细节。” 马德嘉说,“他们需要的是软件工具库支持、让他们能够按照自己所需,非常自由、灵活地选择他们所需的框架、runtime和工具, 面向任何操作系统设计AI应用和智能体。”
通过遵循开发者为中心的策略,高通为开发者简化了在消费和商用产品中集成先进AI特性的过程,帮助开发者 加速创新。
而为了向各行各业实现 规模化AI扩展 ,则需要推动 开发者创新走向生态式创新 ,高通与全球AI模型厂商积极合作,并推出高通AI Hub。
马德嘉表示: “目前已有超过1500家企业在使用高通AI Hub ,比如Meta、Allam、OpenAI等。此外,还有许多服务和软件提供商合作,如AWS、dataloop、IBM Watsonx、Nota AI等。丰富多元的合作伙伴,让高通AI Hub在能够运行的模型数量、支持的模型厂商数量和整个生态系统的合作方面取得了长足的进步。”
高通AI Hub支持主流大语言模型和多模态大模型,让开发者可在搭载高通平台的终端上部署、优化和管理推理任务。
马德嘉表示,高通AI Hub让应用开发变得非常简单,高通提供大量的软件工具、模型库、编译器, 开发者可以编写生成应用并在高通提供的免费云端设备场上进行测试 ,最终完成部署。 高通要做的就是极大简化边缘侧AI开发者的整个开发流程。
借助预优化模型库和支持定制模型优化与集成等特性,不仅缩短开发周期,同时增强了与广泛AI生态的兼容性。
“我们和全球各个地区的众多开源和闭源模型厂商展开了广泛的合作。”马德嘉说,“这让我们能够和生态系统实现非常紧密的结合, 并且在实施我们的AI发展战略和推动生成式AI创新方面拥有独特优势。”
多终端覆盖,高通让智能计算「无处不在」
智能手机被认为是最普适的终端设备, 骁龙8至尊版让AI智能体变成手机上的“原生应用” ,在通信优化、图像生成以及其他个性化功能上进行助力。
在MWC 2025上,荣耀发布全球首款图形界面移动AI助手“荣耀AI agent”,这款AI助手通过深度学习用户习惯,能智能识别用户的需求和意图,自动化地进行任务安排。比如,荣耀AI Agent可以在用户和朋友的聊天中读取上下文,根据用户的地点和偏好来选择餐厅,并为用户实时预定。这种便捷的交互体验,让用户真正感受到AI技术如何在日常生活中发挥作用。这也正是高通在骁龙8至尊版发布时,对接下来终端侧智能体体验发展的预测。
需求的演进让终端形态走向多元,智能手机之外,PC、平板电脑及汽车同样覆盖大量消费者,AI眼镜、XR以及IoT设备则方兴未艾。
骁龙X系列平台搭载的领先NPU,拥有45TOPS的行业领先AI算力,能够为Windows应用带来推理加速,并率先支持诸多Windows 11 AI+PC先进特性,带来 性能、续航及隐私保护上的全面优化。
骁龙数字底盘解决方案则利用先进摄像头、生物识别、环境传感器以及先进的多模态AI网络,提供根据驾驶员状态和环境条件而调整的实时反馈和功能,从而 增强汽车安全和驾驶体验。
面对工业互联网的隐私性和数据安全问题,高通推出的Qualcomm AI本地设备解决方案和Qualcomm AI推理套件让敏感客户数据、调优模型和推理负载能够保留在本地, 增强隐私性、可控性、能效和低时延。
“从移动到汽车、PC、XR以及IoT终端,我们都有一系列出色的产品。”马德嘉说,“对于开发者来说,使用搭载骁龙平台的终端进行开发的优势在于能够获得 更广阔的应用开发和规模化扩展空间,并且拥有非常全面的产品线选择。”
然而,面对多个不同的终端,开发者担心 “多端部署”所带来的兼容性挑战。
对此,马德嘉表示:“开发者不用面向不同平台进行重复开发, 只需一次开发,即可轻松实现跨多平台部署。 进入高通AI Hub后,开发者首先可以看到高通AI Hub所支持的所有不同细分领域的芯片平台,如果对PC感兴趣,就选择需要的PC芯片平台,并选择想要运行的模型, 你会看到你在PC平台上所选择的模型能够支持的其他的芯片平台。”
在DeepSeek带来的发展浪潮之下,智能手机、PC、汽车、AI眼镜以及IoT等各类终端的AI功能将被重新定义, 一个以终端侧AI为主导的AI行业新格局正在形成。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。