从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

雷锋网 • 9年前扫码分享

雷锋网 (搜索“雷锋网”公众号关注) 按：本文作者栗向滨，中科院自动化所复杂系统国家重点实验室研究生，主攻机器人与人工智能 。

Google I/O是由Google举行的网络开发者年会，讨论的焦点是用Google和开放网络技术开发网络应用。这个年会自2008年开始举办，到今年已经是举办的第9届了。

在今年的年会上，Google主要发布了以下8种产品：智能助手Google Assistant，与Amazon Echo竞争的无线扬声器和语音命令设备Google Home，消息应用Allo，视频呼叫应用Duo，VR平台Daydream，独立应用程序的支持Android Wear 2.0，允许不安装而使用应用的Android Instant Apps，以及允许在Chromebook上使用Android应用Google Play on Chrome OS。

而这8中产品主要都集中在了软件领域。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（Google I/O 2016现场图 via：webpronews.com ）

在Google I/O 2016的主题演讲进入尾声时，Google的CEO皮采提到了一项他们这段时间在AI和机器学习上取得的成果，一款叫做Tensor Processing Unit（张量处理单元）的处理器，简称TPU。在大会上皮采只是介绍了这款TPU的一些性能指标，并在随后的博客中公布了一些使用场景，并没有对这款处理器的架构以及内部的运作机制进行详细阐述，所以我们也许需要 从一些常见的处理器的结构出发，试图猜测与探究下这款用于机器学习的专属芯片到底有着怎样的一个面孔。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（Tensor processing unit实物图 via： cio-today.com ）

首先我们先来看看我们最熟悉的中央处理器（Central Processing Unit），简称CPU。它是一种超大规模的集成芯片，而且是一种通用芯片，也就是说，它可以用它来做很多种类的事情。我们日常使用的电脑使用的处理器基本上都是CPU，看个电影、听个音乐、跑个代码，都没啥问题。

| 我们来看看CPU的结构

CPU主要包括运算器（ALU，Arithmetic and Logic Unit）和控制器（CU，Control Unit）两大部件。此外，还包括若干个寄存器和高速缓冲存储器及实现它们之间联系的数据、控制及状态的总线。从上面的叙述我们可以看出，CPU主要包含运算逻辑器件、寄存器部件以及控制部件等。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（CPU结构简化图 via：blog.csdn.net ）

从字面上我们也很好理解，运算逻辑器件主要执行算术运算、移位等操作，以及地址运算和转换；寄存器件主要用于保存运算中产生的数据以及指令等；控制器件则是负责对指令译码，并且发出为完成每条指令所要执行的各个操作的控制信号。

我们可以运用下面这张图来说明一条指令在CPU中执行的大致过程：

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（CPU执行指令图 via：blog.csdn.net ）

CPU从程序计数器取到指令，通过指令总线将指令送至译码器，将转译后的指令交给时序发生器与操作控制器，然后运算器对数据进行计算，通过数据总线将数据存至数据缓存寄存器。

我们从CPU的结构以及执行过程可以看出，CPU遵循的是冯诺依曼架构，冯诺依曼的核心就是：存储程序，顺序执行。

从上面的描述我们可以看出，CPU就像一个有条不紊的管家，我们吩咐的事情总是一步一步来做。但是随着摩尔定律的推进以及人们对更大规模与更快处理速度的需求的增加，CPU好像执行起任务来就不那么令人满意了。于是人们就想，我们可不可以把好多个处理器放在同一块芯片上，让他们一起来做事，这样效率是不是就会高很多，这是GPU就诞生了。

| GPU诞生了

GPU全称为Graphics Processing Unit，中文为图形处理器，就如它的名字一样，GPU最初是用在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上运行绘图运算工作的微处理器。因为对于处理图像数据来说，图像上的每一个像素点都有被处理的需要，这是一个相当大的数据，所以对于运算加速的需求图像处理领域最为强烈，GPU也就应运而生。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（CPU与GPU结构对比示意图 via： baike.baidu.com ）

通过CPU与GPU结构上的对比我们可以看出，CPU功能模块很多，能适应复杂运算环境；GPU构成则相对简单，大部分晶体管主要用于构建控制电路（比如分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。而GPU的控制相对简单，且对Cache的需求小，所以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的飞跃，拥有了更强大的处理浮点运算的能力。当前最顶级的CPU只有4核或者6核，模拟出8个或者12个处理线程来进行运算，但是普通级别的GPU就包含了成百上千个处理单元，高端的甚至更多，这对于多媒体计算中大量的重复处理过程有着天生的优势。

这就好比在画一幅画的时候CPU是用一支笔一笔一笔的来画，而GPU则是多支笔对不同的位置同时进行描绘，那自然效率就是突飞猛进的。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（英特尔CPU与英伟达GPU性能对比图 via： blog.sina.com.cn ）

虽然GPU是为了图像处理而生的，但是我们通过前面的介绍可以发现，它在结构上并没有专门为图像服务的部件，只是对CPU的结构进行了优化与调整，所以现在GPU不仅可以在图像处理领域大显身手，它还被用来科学计算、密码破解、数值分析，海量数据处理（排序，Map-Reduce等），金融分析等需要大规模并行计算的领域。 所以GPU也可以认为是一种较通用的芯片 。

| FPGA应运而生

随着人们的计算需求越来越专业化，人们希望有芯片可以更加符合我们的专业需求，但是考虑到硬件产品一旦成型便不可再更改这个特点，人们便开始想，我们可不可以生产一种芯片，让它硬件可编程。也就是说——

这一刻我们需要一个比较适合对图像进行处理的硬件系统，下一刻我们需要一个对科学计算比较适合的硬件系统，但是我们又不希望焊两块板子，这个时候FPGA便应运而生。

FPGA是Field Programmable Gate Array的简称，中文全称为场效可编程逻辑闸阵列，它是作为专用集成电路领域中的一种半定制电路而出现的 ，既解决了全定制电路的不足，又克服了原有可编程逻辑器件门电路数有限的缺点。

FPGA运用硬件描述语言（Verilog或VHDL）描述逻辑电路，可以利用逻辑综合和布局、布线工具软件，快速地烧录至FPGA上进行测试。人们可以根据需要，通过可编辑的连接，把FPGA内部的逻辑块连接起来。这就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变，所以FPGA可以完成所需要的逻辑功能。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（FPGA结构简图 via： dps-az.cz/vyvoj ）

FPGA这种硬件可编程的特点使得其一经推出就受到了很大的欢迎，许多ASIC（专用集成电路）就被FPGA所取代。这里需要说明一下ASIC是什么。ASIC是指依产品需求不同而定制化的特殊规格集成电路，由特定使用者要求和特定电子系统的需要而设计、制造。这里之所以特殊说明是因为我们下面介绍的TPU也算是一种ASIC。

FPGA与ASIC芯片各有缺点，FPGA一般来说比ASIC的速度要慢，而且无法完成更复杂的设计，并且会消耗更多的电能；而ASIC的生产成本很高，如果出货量较小，则采用ASIC在经济上不太实惠。但是如果某一种需求开始增大之后， ASIC的出货量开始增加，那么某一种专用集成电路的诞生也就是一种历史趋势了，我认为这也是Google生产Tensor processing unit的一个重要出发点。至此，TPU便登上历史舞台。

随着机器学习算法越来越多的应用在各个领域并表现出优越的性能，例如街景、邮件智能回复、声音搜索等，对于机器学习算法硬件上的支持也越来越成为一种需要。目前很多的机器学习以及图像处理算法大部分都跑在GPU与FPGA上面，但是通过上面的讲述我们可以知道，这两种芯片都还是一种通用性芯片，所以在效能与功耗上还是不能更紧密的适配机器学习算法，而且Google一直坚信伟大的软件将在伟大的硬件的帮助下更加大放异彩，所以Google便在想，我们可不可以做出一款专用机机器学习算法的专用芯片，TPU便诞生了。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（TPU板卡图 via： cloudplatform.googleblog.com ）

| Google想做一款专用机机器学习算法的专用芯片——TPU

从名字上我们可以看出，TPU的灵感来源于Google开源深度学习框架TensorFlow，所以目前TPU还是只在Google内部使用的一种芯片。

Google其实已经在它内部的数据中心跑TPU跑了一年多了，性能指标杠杠的，大概将硬件性能提升了7年的发展时间，约为摩尔定律的3代。对于性能来说，限制处理器速度的最大两个因素是发热与逻辑门的延迟，其中发热是限制速度最主要的因素。现在的处理器大部分使用的是CMOS技术，每一个时钟周期都会产生能量耗散，所以速度越快，热量就越大。下面是一张CPU时钟频率与能量消耗的关系，我们可以看到，增长是指数性的。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（CPU时钟频率与功耗关系图 via： electronics.stackexchange.com ）

从TPU的外观图我们可以看出，其中间突出一块很大的金属片，这便是为了可以很好地对TPU高速运算是产生大量的热进行耗散。

TPU的高性能还来源于对于低运算精度的容忍，也就是说每一步操作TPU将会需要更少的晶体管。在晶体管总容量不变的情况下，我们就可以单位时间在这些晶体管上运行更多的操作，这样我们就可以以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。我们在TPU的板子上看到了插条，所以目前Google使用TPU的方式是将载有TPU的板子插在数据中心机柜的硬盘驱动器插槽里来使用。

而且我觉得TPU的高性能还来源于它数据的本地化。对于GPU，从存储器中取指令与数据将耗费大量的时间，但是机器学习大部分时间并不需要从全局缓存中取数据，所以在结构上设计的更加本地化也加速了TPU的运行速度。

从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？

（ AlphaGo对战李世乭比赛中使用的载有TPU的服务器机架，不知道为什么侧面贴的围棋图有种萌感。via： googleblog.com ）

在Google数据中心的这一年来，TPU其实已经干了很多事情了，例如机器学习人工智能系统RankBrain，它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的；还有街景Street View，用来提高地图与导航的准确性的；当然还有下围棋的计算机程序AlphaGo，其实这一点上也有个很有趣的地方，我们在描述AlphaGo的那篇Nature文章中看到，AlphaGo只是跑在CPU+GPUs上，文章中说AlphaGo的完整版本使用了40个搜索线程，跑在48块CPU和8块GPU上，AlphaGo的分布式版本则利用了更多的机器，40个搜索线程跑在1202个CPU和176块GPU上。这个配置是和樊麾比赛时使用的，所以当时李世乭看到AlphaGo与樊麾的对弈过程后对人机大战很有信心。但是就在短短的几个月时间，Google就把运行AlphaGo的硬件平台换成了TPU，然后对战的局势就艰难了起来。

那么除了TPU可以更好更快地运行机器学习算法，Google发布它还有什么其他目的。我觉得说的玄幻一些，Google也许在下一盘大棋。

Google说他们的目标是在工业界的机器学习方面起到先锋带头作用，并使得这种创新的力量惠及每一位用户，并且让用户更好地使用TensorFlow 和 Cloud Machine Learning。其实就像微软为它的HoloLens 增强现实头显配备了全息处理单元（holographic processing unit，HPU），像TPU这样的专业硬件只是它远大征程的一小步，不仅仅是想让自己在公共云领域超过市场老大Amazon Web Services (AWS)。随着时间的推移，Google会放出更多的机器学习API，现在Google已经推出了云机器学习平台服务和视觉API，我们可以相信，做机器学习技术与市场的leader才是Google更大的目标。

雷锋网注：题图与第一张图均来自 wingatewire.com 。本文为雷锋网原创约稿，转载请联系授权并保留完整信息， 不得删减、修改 文章。

本文被转载1次

首发媒体

雷锋网

| 转发媒体

随意打赏

cpu gpu tpu谷歌

谷歌因滥用搜索市场“近乎垄断地位”在英国面临50亿英镑诉讼

i黑马 • 3分钟前

谷歌在英国面临超过50亿英镑（约合66亿美元）的潜在赔偿诉讼，指控这家美国科技巨头滥用其在在线搜索市场的“近乎垄断地位”推高广告价格。周三（4月17日）在英国竞争上诉法庭提起的集体诉讼称，谷歌通过限制竞争对手搜索引擎来巩固其市场主导地位，使自己成为在线搜索广告的唯一可行选择。该诉讼由竞争法学者奥·布鲁克代表2011年1
谷歌DeepMind开发DolphinGemma AI模型，助力海豚“语言”研究

砍柴网 • 2天前

4月15日消息，谷歌旗下的AI研究实验室谷歌DeepMind今日宣布，成功开发出一款名为DolphinGemma的AI模型，旨在助力科学家深入研究海豚的“语言”，更好地理解海豚的沟通方式。据IT之家了解，DolphinGemma是基于谷歌开放的Gemma系列模型构建的，其训练数据来源于专注于研究大西洋斑点海豚
谷歌安卓和Pixel手机团队被曝裁员数百人

砍柴网 • 3天前

4月14日消息，据《The Information》上周五报道，一位了解情况的人士透露，Alphabet旗下的谷歌在其平台和设备部门裁员数百人。报道称，该部门（IT之家注：包括Android平台、Pixel 手机和Chrome浏览器等应用）的裁员，发生在谷歌1月份向该部门员工发出要约之后。
谷歌Pixel 9a手机支持电池健康度辅助功能：随老化进程分阶段调整最大电压

砍柴网 • 3天前

4月14日消息，谷歌Pixel手机帮助中心页面显示，该企业新推出的Pixel 9a智能手机支持一项名为“电池健康度辅助功能”的独占新特性，该功能可帮助稳定电池性能和老化速度。 “电池健康度辅助功能”会随着电池老化自动管理Pixel 9a电池的长期健康状况和性能。此软件将从200个充电周期开始分
谷歌诠释Pixel 9a手机设计思路：相机“圆顶”方案，探索美学新方向

砍柴网 • 4天前

4月12日消息，科技媒体 Android Authority今天（4月12日）发布博文，报道称谷歌回应Pixel 9a 手机相机模块灵感来自Pixel Watch的“水滴造型”，内部将其称为“圆顶”设计。谷歌Pixel 9a手机发布后，但其设计选择引发热烈
谷歌Gemini AI新功能Circle Screen曝光：圈选截屏特定区域，实现精准搜索

砍柴网 • 4天前

4月12日消息，科技媒体 Android Authority昨日（4月11日）发布博文，报道称谷歌计划发布Circle Screen功能，支持用户圈选屏幕部分内容，实现精准搜索。谷歌近期在Instagram上发布了一段展示Gemini屏幕共享功能的视频，意外透露了一项未公开
谷歌Pixel Watch 4智能手表渲染图首曝：收窄边框、更大电池、新增双按键，有望支持无线充电

砍柴网 • 4天前

4月12日消息，科技媒体 91Mobile昨日（4月11日）发布博文，分享了一组渲染图片，展示了谷歌Pixel Watch 4智能手表。作为Pixel Watch 3的继任者，新款手表将升级设计和性能，带来更卓越的使用体验。外观方面，Pixel Watch 4延续了前代Pi
Gemini 大模型逆袭，给了 Google Cloud「AI 基建」的勇气

极客公园 • 5天前

北京时间 4 月 10 日凌晨，Google Cloud Next 2025 正式揭开序幕。如果用「AI 届的苹果发布会」来形容每年的英伟达硬件发布会，那「AI 届的 CES」或许更适合用来形容今年的 Google Cloud Next；虽然同样令人兴奋，但每一个来到现场的人都带着自己的问题，现场随处可见各种务实的交
终究是Google和Anthropic，扛下了连接一切Agent的所有

虎嗅网 • 6天前

Google Cloud Next'25大会上，Google“杀疯了”，而与其说今年的大会是一场按部就班的发布会，不如看作是Google Cloud在全球AI军备竞赛中的一次表态。面对亚马逊AWS和微软Azure这两大巨头的挤压，尽管手握DeepMind等顶尖AI研究力量，Google Cloud在市场份额上
谷歌承诺终止汽车服务和地图相关限制竞争措施，德国反垄断机构结束调查

i黑马 • 6天前

德国反垄断机构“联邦卡特尔局”4月9日发布声明称，谷歌承诺将终止与谷歌汽车服务和地图平台有关的多项限制竞争措施，该机构结束诉讼程序。德国反垄断机构此前曾对谷歌车载地图与信息娱乐系统捆绑的形式表示担忧，称这可能会阻碍竞争对手单独销售类似服务的机会。文章评价匿名用户发布发布

评论