大模型上手机，拉开 AI 改变世界的大幕

极客公园 • 1年前扫码分享

打开摄像头界面，演示人员拍摄了一张眼前风景的图片。在相册中，找到这张图片，选择「扩充」功能，结果本来照片没有拍到的外围部分，被神奇地「扩充」到了外围。

另一边，一台手机仿佛是用来给参观者自拍的，进入到它的前置摄像头区域，你会发现，画面中人物影像的背景被实时替换了，即便自拍者不断动作，虚拟背景也没有穿帮，几乎感受不到延迟。

实时修改自拍背景演示｜极客公园

而如果稍微仔细一些，你会发现这些用来演示的手机全部开启了飞行模式——也就是说，上述这些复杂功能，全部跑在手机本地芯片上。

这是 2023 高通骁龙峰会的 Demo 体验馆，而上述手机演示的 AI 功能，全部仰仗于机器内部、刚刚在会上曝光的骁龙 8 Gen 3 （第三代骁龙 8）处理器芯片的算力。

在 AI 大模型火爆的当下，高通在今年的发布会上发布的两款新品，骁龙 X Elite 和骁龙 8 Gen 3 芯片，分别在 PC 和智能手机代表的移动设备上，实现了百亿参数大模型的本地运行，让生成式 AI 的神奇能力，成为移动设备的「内置功能」 。

在「云端 AI」之外，借助芯片的高速发展，「终端 AI」已经实现，而二者协同的「混合 AI」的时代，可能已经到来。

AI，从数据中心到手机和 PC

「 我们刚刚见证了下一个转型的开始，而它的深远意义。 」

高通公司总裁兼 CEO，克里斯蒂亚诺·安蒙 Cristiano Amon 在描述了手机从功能机到智能机，再到未来时，对终端和云端结合的「混合式 AI」，做出了这样的预言。

大模型上手机，拉开 AI 改变世界的大幕

安蒙在高通骁龙峰会上阐述「终端 AI」时代已经到来｜极客公园

在云端的 AI，例如现在诸多的生成式 AI 对话应用可能已经不陌生，但是终端 AI 的实现，对于硬件的要求很高，这也是为什么当天高通发布会上的两款全新芯片——骁龙 X Elite 和骁龙 8 Gen 3 格外引人注意。

也许当天最刺激的，是骁龙 X Elite 所搭载的 Oryon CPU 在单线程上的 性能不仅秒杀苹果公司自傲的 M2 MAX 芯片 ，和英特尔的 i9-13980HX，而且在同等性能上的能耗比后者降低了 70%。

更重要的是，强劲的 Oryon CPU、Hexagon NPU，以及 Adreno GPU，在 X Elite 异构的 AI 引擎加持下，三块处理器单元能够实现整体 75 TOPs 的算力。

超强的算力，让之前只能在云端获得的生成式 AI 对话体验，可以成功在搭载了骁龙 X Elite 芯片的电脑本地环境中——最高可以在 PC 端运行高达 130 亿参数的大语言模型，Token 生成速度达到每秒 30 个 ，快到超过用户的阅读速度；同时，使用 Stable Diffusion 生成图片速度达到惊人的少于 1 秒。

大模型上手机，拉开 AI 改变世界的大幕

新推出的 Oryon CPU 速度和能耗吊打友商｜极客公园

在现场，当你用手指点击生成按钮，图片可以在瞬间完成时，体验令人惊奇，因为人们早已习惯了等待生成式对话产生图片，从模糊到清晰那漫长的时间。

作为智能手机芯片旗舰产品，骁龙 8 Gen 3 的实力与 X Elite 相比也不遑多让，在 AI 方面，不仅本地能跑起百亿参数大模型，同时生成图片速度同样达到了短短 0.6 秒。

仅仅在今年第一季度，高通的演示仅能在本地跑的动 10 亿参数大模型，生成图片速度控制在 15 秒。高通使用了什么「魔法」，能让「终端 AI」取得大跨越发展？

以骁龙 8 Gen 3 为例，首先高通 将 Llama 2 这样的大模型量化，使用 AI 软件栈进行压缩，将量化模型加载到超高速 DDR 内存之中 ，后者可以用超快吞吐量将模型输入到 Hexagon NPU 进行工作。

高通的 AI 引擎专门针对 AI 进行了优化｜极客公园

高通对微架构进行了重大改进。除升级微切片推理硬件外，团队还为张量加速器增加了独立的电源传输轨道，以实现最佳性能和能效。同时，高通还提高了标量和矢量加速器的时钟速度，并将大型共享内存的带宽增加了一倍。Hexagon NPU 的这些改进，使其成为大模型推理的领先加速器。

在语音式生成对话中，高通还使用了一种「推测性解码」技术，后者也是首次在终端上使用。该技术使用几乎只有原模型一半大小的「草稿模型」算法，首先在 CPU 上进行大量推理后，快速生成 3 个推测性 Token。

主模型一次性处理所有 3 个标记，并决定接受哪一个。一个好的草稿模型能以较高的接受率预测下一个 Token，从而使 Token 生成速度翻倍，同时保持准确性。最后，AI 助手生成的语音要经过 CPU 上运行的文本到语音 AI 模型而生成。

这是高通 AI 引擎，也就是 NPU，再加上 CPU、GPU、高通传感器中枢和超快内存共同协作完成了一次终端侧 AI 使用案例的过程。

但是，在复杂但高效的生成式 AI 应用案例背后，是高通在终端侧 AI 方向上漫长的积累和探索。

终端 AI 进化史

如果说以数据中心为场景的云端 AI 硬件进化，标志是英伟达的图形显卡；那么终端侧 AI 的发展，具有标志意义的则是高通 AI 引擎，当然其中硬件层面最关键的部分就是不断进化的骁龙 Hexagon NPU 处理器。

早在 2007 年， 高通便在骁龙平台上推出了首个 Hexagon 处理器 。

2015 年，高通已经将 AI 技术集成到其处理器之中，用 AI 来增强图像、音频和传感器的运算。

2017 年，高通在骁龙 845 芯片中引入了 Hexagon 685 DSP，它使智能手机更快速地执行复杂的 AI 任务，如图像识别和语音处理。

接下来的 2018 年，骁龙 855 升级了第四代 AI 引擎，为 Hexagon 处理器增加了张量加速器，在 AI 处理方面有了 3 倍的性能提升。

骁龙 865 中，引入了 Hexagon 698 DSP，提供了更多的 AI 性能和效率。这一版本强调了 AI 加速，并优化了 AI 模型的执行，从而在智能手机中更快速地运行 AI 应用。2020 年年底的骁龙 888 中的 Hexagon 780 DSP，提供了高达 26TOPS 的 AI 性能。

经过十多年进化，骁龙计算平台的 AI 能力已经增长 100 倍｜极客公园

直到现在骁龙 X Elite 和 8 Gen 3 芯片，已经能提供 75 TOPs 的算力——如果将这七年来高通芯片在 AI 处理能力做成一张曲线图，可以看到那条「AI 曲线」呈现一个陡峭上扬的趋势，并且仍然没有停下来的趋势。

在硬件之外，高通在 AI 软件层面上的努力，对于提升终端 AI 的能力同样不可或缺。高通 AI 软件栈将其所有的 AI 软件产品集成在统一的解决方案中。OEM 厂商和开发者可基于高通产品创建、优化和部署 AI 应用，充分利用高通 AI 引擎性能，让 AI 开发者创建一次 AI 模型，即可跨不同产品部署。

在骁龙峰会上， 高通还发布了 AI 软件栈模型——一套能够满足开发人员需求的模型 ，这些模型经过高通公司的全面优化、测试和验证，可支持第三代骁龙 8 和骁龙 X Elite 平台。

高通神经网络处理 SDK 和高通 AI 引擎 Direct 是高通 AI 软件栈的核心，连接芯片与所有主流 AI 框架。利用托管模型 TF Lite 和 ONNX RT，用户还可以直接使用 Tensorflow 和 ONNX，让开发人员自由选择自己喜欢的工作环境。

高通正在和众多巨头、大模型公司建立终端 AI 生态｜高通

高通已经和多家巨头和大模型初创公司合作，在高通 AI 软件栈模型发布时，已经有 30 多个大模型支持，数量还在不断增加，而软件栈模型也会在大热的模型托管平台 Hugging Face 现身。

由多个软硬件组件构成的高通 AI 引擎如今已经发展到第八代，能在骁龙和高通平台上实现终端侧 AI 加速。

可以看出， 以芯片底层硬件为基础，高通正在联合为数众多的合作伙伴，建立起一个「终端 AI」生态 。

「终端 AI」为什么这么重要，高通，及其合作伙伴，要不遗余力地进行投入？

「混合式 AI」的未来

在浏览器中，在手机端的 App 里，很多人都在使用生成式 AI 应用，看起来这种「云端 AI」似乎已经能满足人们的需求。相对于云端 AI，终端侧 AI 有什么优势？

首先就是即刻响应。之前曾经有开发者尝试将 Stable Diffusion 模型压缩，在 Mac 笔记本上生成图片，结果生成速度以小时计。而如果在终端进行本地运算，高通展示的 Demo 中，Fast Stable Diffusion 生成图片的速度已经降到了 1 秒以下 。

尤其是像虚拟人、实时虚拟背景这样对于延迟要求较高的场景，终端 AI 本地运算的即时性就凸显出来。

另外，在网络不良的情况下，本地设备的 AI 能力就成了用户的唯一选择。

第三代骁龙 8 芯片可以在手机本地实现照片扩展能力｜高通

同时，当数据跑在终端的本地时，安全性也要比在云端更加安全。例如，骁龙 X Elite 支持最新端到端安全，从芯片到云保护企业的全部终端。专用的高通安全处理单元支持微软 Pluton 安全架构，旨在存储敏感数据。

最后，就是终端 AI 能力的提升，能真正有机会让人工智能助手，摆脱「人工智障」的骂名，真正成为合格的高度个性化的私人智能助手。就像现场演示的那样，借助记录和存储在终端侧的个人信息、使用习惯等数据，智能助手在接收到语音指令后，即可直接预订酒店和机票，而不用在手机各个 App 中跳来跳去。这些都是云端 AI 所无法比拟的。

大概十年前，a16z 创始人马克·安德森曾经做出「软件吞噬世界」的预言，可惜现实证伪；在大模型引发的 AI 浪潮下，「AI 吞噬 App」却正在逐步变成现实。