为AI而生的IPU芯片,或挑战GPU的霸主位?
为AI而生的IPU芯片,或挑战GPU的霸主位?
脑极体
· 刚刚
另辟蹊径的AI计算路径。
图片来源@视觉中国
文丨脑极体
在CPU芯片领域,延续至今的“摩尔定律”,正在随着制程工艺逼近物理极限而有了延缓的趋势,甚至失效的可能。就在摩尔定律的增长放缓脚步的同时,半导体芯片的计算也正在从通用走向专用,其中AI计算正是其中增长最快的一种专用计算。
现在,AI计算正在接棒摩尔定律,延续并超越其倍增神话。2019年,OpenAI发布了AI算力的增长情况,结果显示AI算力以3.4个月的倍增时间实现了指数增长,从2012年起,该指标已经增长了30万倍。
在AI算力爆炸式增长的过程中,英伟达的GPU功不可没。广为人知的一个故事就是2012年,来自多伦多大学的Alex和他的团队设计了AlexNet的深度学习算法,并用了2个英伟达的GTX580 GPU进行训练后,打败了其他所有计算机视觉团队开发的算法,成为那一届ImageNet的冠军。
此后,在计算机视觉和自然语言处理领域,GPU的高并行计算能力得到了充分的发挥,英伟达的GPU也随着AI第三次浪潮的崛起而迎来井喷发展。与此同时,更多为机器学习而专门定制的专用芯片开始出现,比如专用集成电路(ASIC)的张量处理单元TPU、神经网络单元NPU以及半定制芯片FPGA等等。
2018年底,英国一家名为Graphcore的创业公司推出了一种专门用于AI计算的处理器芯片IPU(Intelligence Processing Unit)。一经问世,IPU就受到AI界越来越多的关注。
ARM创始人,被称为英国半导体之父的赫曼·豪瑟曾为Graphcore的IPU给出很高评价,将其誉为“计算机史上三次革命中,继CPU和GPU之后的第三次革命”。赫曼在芯片产业的地位自然不容置疑,但由于Graphcore是英国芯片产业中为数不多的新生力量,难免赫曼有“护犊子”的打广告之嫌。
IPU出道2年时间,现已推出了量产第二代型号为GC2的IPU。那么,IPU的表现如何,与GPU相比有哪些优势之处,这是本文要重点探讨的问题。
GPU所开启的深度学习
一个广为人们熟知的例子就是,在计算机视觉发展初期的2011年,谷歌大脑想要在YouTube的视频中识别人类和猫,当时这样一个简单的任务,谷歌要动用一家大型数据中心内的 2,000 颗服务器 CPU,这些CPU的运行会产生大量的热量和能耗,关键是代价不菲,很少能有研究人员可以用得起这种规模的服务器。
不过在当时,研究人员注意到了英伟达的GPU,斯坦福大学的吴恩达团队开始和英伟达合作,将GPU应用于深度学习。后来证明,只需要12颗英伟达GPU就可以达到相当于2000颗CPU提供的深度学习性能。此后越来越多的AI研究人员开始在GPU上加速其深度神经网络 (DNN)的训练。
现在我们都知道,GPU能够在深度学习的训练中大显身手,正是源于GPU的计算架构正好适用于深度学习的计算模式。深度学习是一种全新的计算模式,其采用的DNN算法包含数十亿个网络神经元和数万亿个连接来进行并行训练,并从实例中自己学习规律。
深度学习算法主要依赖的基本运算方法有矩阵相称和卷积浮点运算,而GPU多核架构在原本图像渲染中可以大规模处理矩阵乘法运算和浮点运算,很好地可以处理并行计算任务,使得DNN训练速度大幅提升。
此后,GPU成为辅助完成深度学习算法的主流计算工具,大放异彩。但GPU本身并非是专门为AI计算而设计的芯片,其中有大量的逻辑计算对于AI算法来说毫无用处,所以行业自然也需要专门针对AI算法的专用AI芯片。
近几年,全球已经有上百家公司投入到新型AI芯片的研发和设计当中,当然最终能够成功流片并推出商用的仍然是几家巨头公司和少数实力雄厚的独角兽公司。
这其中,2017年初创成立的Graphcore所研发的AI芯片IPU,则成为这些AI芯片当中的另类代表,因其不同于GPU架构的创新得到了业内的关注。而这正是我们要着重介绍的部分。
更适合AI计算的IPU芯片
近两年,AI 芯片出现了各种品类的井喷,其中甚至出现一些堪称疯狂的另类产品。
比如一家同样创立四年的AI芯片创业公司Cerebras Systems就发布了史上最大的半导体芯片Wafer Scale Engine(WSE),号称“晶圆级发动机”,拥有1.2万亿个晶体管,比英伟达最大的GPU要大出56.7倍。这块芯片主要瞄准的是超级计算和和大型云计算中心市场,其创新之处在于一体化的芯片设计大幅提高了内部的数据通信数据,但其架构仍然类似于GPU的计算架构。
而Graphcore的 IPU与GPU的架构差异非常大,代表的是一种新的技术架构,可以说是专门为解决CPU和GPU在AI计算中难以解决的问题而设计的。
IPU为AI计算提供了全新的技术架构,同时将训练和推理合二为一,兼具处理二者工作的能力。
我们以目前已经量产的IPU的GC2处理器来看,IPU GC2采用台积电的16nm工艺,拥有 236亿个晶体管,在120瓦的功耗下有125TFlops的混合精度,另外有45TB/s内存的带宽、8TB/s片上多对多交换总线,2.5 TB/s的片间IPU-Links。
其中,片内有1216个IPU-Tiles独立处理器核心,每个Tile中有独立的IPU核,作为计算以及In-Processor-Memory(处理器内的内存)。对整个GC2来说共有7296个线程(每个核心最多可以跑6个线程),能够支持7296个程序并行运行,处理器内的内存总共可以达到300MB,其设计思路就是要把所有模型放在片内处理。
首先,IPU作为一个标准的神经网络处理芯片,可以支持多种神经网络模型,因其具备数以千计到数百万计的顶点数量,远远超过GPU的顶点规模,可以进行更高潜力的并行计算工作。此外,IPU的顶点的稀疏特性,令其也可以高效处理GPU不擅长的稀疏的卷积计算。其次,IPU 也支持了模型参数的复用,这些复用特性可以获取数据中的空间或时间不变性,对于训练与推理的性能会有明显帮助。
其次,为解决芯片内存的宽带限制,IPU采用了大规模并行MIMD(多指令流多数据流)众核架构,同时,IPU架构做了大规模分布式的片上SRAM。片内300MB的SRAM,相对于GPU的GDDR、HBM来说,可以做到数十倍的性能提升,而且与访问外存相比,SRAM的片内时延基本可以忽略不计。
第三,IPU采用了高效的多核通信技术BSP(Bulk Synchronous Parallel)。IPU是目前世界上第一款采用BSP通信的处理器,支持内部1216个核心之间的通信以及跨不同的IPU之间的通信。通过硬件支持BSP协议,并通过BSP协议把整个计算逻辑分成了计算、同步、交换,能极大方便工程师们的开发工作。
基于以上IPU的差异化特点,IPU在某些批量训练和推理中能够获得更好的性能、更低延时和更快网络收敛。片内的SRAM相对于片外存储,也有高带宽和低延时的优势。
今年7月,Graphcore发布了二代的Colossus MK2 IPU (MK2),以及包含四颗MK2芯片系统方案的IPU-Machine:M2000 (IPU-M2000),其核心数增加了20% ,达到1472个,8832个可并行执行的线程。片内SRAM则多出3倍,增加到900MB,互联扩展性能是上一代的16倍。显然在计算、数据和通信扩展层面,MK2都算是延续了第一代IPU堆料狂魔的作风。
由4个IPU芯片构成的IPU-M2000系统,可以提供大约1 PetaFLOPs的算力。基于IPU的多层级存储结构,与IPU Exchange Memory等技术优化,整体与GPU的HBM2存储比较,可以提供超过100倍的带宽以及大约10倍的容量,可以适用于更复杂的AI模型和程序。
计算加上数据的突破可以让IPU在原生稀疏计算中展现出领先GPU 10-50倍的性能优势,在通信上,Graphcore专为为AI横向扩展设计了IPU-Fabric,解决数据中心大规模计算横向扩展的关键问题。Graphcore将计算、数据、通信三者的突破技术结合,构建了大规模可扩展的IPU-POD系统,最终可以提供一个AI计算和逻辑进行解耦、系统易于部署、超低网络延时、高可靠的AI超算集群。
可以预计,未来IPU在各类AI应用中将具有更大的优势,而这也必然会引起英伟达的注意。那么,相较于英伟达GPU所占据的AI行业生态位的霸主地位,IPU会有哪些前景,也会遭遇哪些困境呢?
走向通用AI计算的“另辟蹊径”
如果回顾下AI芯片的发展经历,我们看到在经过这几年专用AI芯片的井喷之后,也开始面临一个尴尬困境,那就是ASIC芯片的灵活性或者说可编程性很差,对应的专用AI芯片只能应对一种算法应用,而算法本身则在3-6个月的时间就有可能变化一次,或许出现很多AI芯片还未上市,算法就已经发生进化的问题,一些AI芯片注定无法生产。当然,专用AI芯片的优势也很明显,在性能、功耗和效率上远胜更加通用的GPU,对于一些非常具体的AI应用场景,这些专用芯片就具有了巨大的收益。
从专注图像渲染崛起的英伟达的GPU,走的也是相当于ASIC的技术路线,但随着游戏、视频渲染以及AI加速需要的出现,英伟达的GPU也在向着GPGPU(General Purpose GPU)的方向演进。为保持其在GPU领域的寡头地位,使得英伟达必须一直保持先进的制程工艺,保持其通用性,但是要牺牲一定的效能优势。
这给后来者一定的启发,那就是AI芯片既要具备一定的灵活的可编程性(通用性),又要具备专用的高效性能优势。这为IPU找到了一个新的细分市场,也就是介入GPU不能很好发挥效能的神经网络模型,比如强化学习等类型,同时又避免的专用AI芯片的不可扩展性,能够部署在更大规模的云计算中心或超算中心,对新算法模型保持足够的弹性计算空间。
目前来看,IPU正在成为仅次于GPU和谷歌TPU的第三大部署平台,基于IPU的应用已经覆盖包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型等机器学习的各个应用场景。
典型的如通过IPU可以训练胸片,帮助医学人员快速进行新冠肺炎的诊断;如在金融领域,对涉及算法交易、投资管理、风险管理及诈骗识别的场景进行更快的分析和判断;此外在生命科学领域、通信网络等方面,都可以同IPU实现高于GPU性能的AI加速。
(NLP模型参数的指数增长)
当然,IPU想要在AI计算中拥有挑战GPU地位的资格,除了在性能和价格上面证明自己的优势之外,还需要在为机器学习框架提供的软件栈上提供更多选择,获得主流AI算法厂商的支持,在标准生态、操作系统上也需要有广泛的支持,对于开发者有更方便的开发工具和社区内容的支持,才能从实际应用中壮大IPU的开发生态。
今年, AI芯片产业正在遭遇洗牌期,一些AI芯片企业黯然退场,但这并不意味着AI计算遭遇寒冬,反而AI算力正在得到大幅提升,以今年数量级提升GPT-3的出场就可以看出这样的趋势。
一个AI芯片从产出到大规模应用必须要经过一系列的中间环节,包括像上面提到的支持主流算法框架的软件库、工具链、用户生态等等,打通这样一条链条都会面临一个巨大挑战。
现在,GPU已经形成一个非常完整的AI算力生态链路,而IPU则仍然在路上,是否能真正崛起,还需要整个AI产业和开发者用实际行动来投票。
787篇资讯
15.1k关注
脑极体 认证作者
写让你脑洞大开且能看懂的人工智能、流媒体、海外科技
最近资讯
- OTA频发的“大数据杀熟”,想要治你不容易?
- iOS 14将隐私分享权还给用户,我的数据我做主?
- 为云而生的“云原生”,为什么越来越重要?
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。
敬原创,有钛度,得赞赏
-
钛哥儿 赞赏了
赵何娟对话薇娅:两个女人的知世故而不世故
2020-09-25 13:07 -
钛粉85193 赞赏了
以应用带产品,“自适应”工业级机器人Flexiv试...
2020-09-23 11:43 -
那只猫已转身不见 赞赏了
低房价、高收入,这些城市买房性价比最高
2020-09-18 16:36 -
一潭浑水 赞赏了
豆瓣评分4.8的《花木兰》,真的那么烂吗?
2020-09-12 13:24 -
钛粉59301 赞赏了
市值超四千亿,创造首富,农夫山泉为何这么“甜”?
2020-09-08 17:57 -
钛粉14259 赞赏了
到95后的茶杯里兴风作浪
2020-09-08 12:30 -
钛粉55117 赞赏了
中国APP出海“变形记”:再见工具,你好社交
2020-09-06 23:36 -
钛粉96933 赞赏了
银行与实体经济如何产融对接?产业要全面深入,数据需...
2020-09-05 09:42 -
钛粉86548 赞赏了
代餐赛道会跑出下一个“三只松鼠”吗?| 钛媒体深度
2020-09-01 16:39 -
钛粉22511 赞赏了
【书评】光环效应,另一种乌合之众
2020-08-21 09:43 -
钛粉92962 赞赏了
【钛晨报】Airbnb向美国证监会秘密递交IPO注...
2020-08-20 13:30 -
苑晶 赞赏了
完美世界“杀入”邮箱红海意欲何为?
2020-08-14 09:47 -
钛粉20283 赞赏了
汽车行业新老势力竞逐新赛道,谁会是幸存者?
2020-08-12 13:31 -
钛粉54633 赞赏了
腾讯发起虎牙斗鱼合并建议,结束同质化竞争
2020-08-11 12:02 -
钛粉20377 赞赏了
Zoom在中国暂停直销,或与TikTok“同因”
2020-08-04 15:21 -
钛粉88981 赞赏了
华为改变松山湖,松山湖改变东莞
2020-07-27 10:37 -
钛粉88609 赞赏了
WWD CHINA与量子云合作,成立营销机构“华耘...
2020-07-24 15:57 -
钛粉22894 赞赏了
AI芯片的十字路口:RISC-V能带来下一代芯片吗...
2020-07-21 12:35 -
钛粉46303 赞赏了
中国的暗网,迷失的闲鱼
2020-07-13 19:44 -
钛粉32504 赞赏了
实现高级自动驾驶,一定要用激光雷达吗?
2020-07-11 09:15 -
钛粉53982 赞赏了
太空旅行离我们还有多远?亚轨道距离为零,地球轨道还...
2020-07-10 12:45 -
LS邋遢道人 赞赏了
黄峥辞任CEO,大佬们为什么都要退居幕后?
2020-07-08 13:50 -
钛粉90243 赞赏了
英特尔“断货”浪潮信息背后:真的只是虚惊一场吗?
2020-07-07 14:27 -
钛粉11017 赞赏了
美的空调回应格力举报:清者自清,这是第一次也是最后...
2020-07-06 23:20 -
钛粉09803 赞赏了
比瑞幸造假更夸张,中概股金凰珠宝上演200亿黄金大...
2020-07-06 03:54 -
躬身求索路 赞赏了
跑马圈地三年,新茶饮仍是一场无限规模游戏 | 钛媒...
2020-07-05 02:57 -
科技新视角 赞赏了
黄光裕的电商梦:砸数十亿战京东斗苏宁,为何还是输了...
2020-06-30 09:52 -
钛粉98650 赞赏了
Telegram传奇:一个关于俄罗斯富豪、黑客、极...
2020-06-30 03:55 -
钛粉94590 赞赏了
抖音小姐姐请“喝茶”背后,我们翻出来了一整条涉黄产...
2020-06-25 22:53 -
钛粉20375 赞赏了
赵爷:呼吁重审王振华猥亵案
2020-06-25 07:25 -
钛ifWjWY 赞赏了
张小龙在下一盘大棋
2020-06-23 22:00 -
htEqmw 赞赏了
不要再拿“学历不重要”的谎言,骗正在“入海”的95...
2020-06-20 16:06 -
钛粉11567 赞赏了
一位从业8年运营达人自述:从门外汉到COO我经历了...
2020-06-20 00:17 -
hPqOpl 赞赏了
一家仅成立5年的台湾公司,是如何为淘宝“装上”AR...
2020-06-19 17:08 -
h3mAvN 赞赏了
ARM中国“夺帅”罗生门:关乎中国芯片产业未来?
2020-06-12 09:31 -
钛粉57273 赞赏了
王健林电商帝国梦碎:曾拉拢腾讯百度组局,一年换一个...
2020-06-11 10:20 -
钛粉65850 赞赏了
【钛晨报】苹果成为首个市值超过 1.5 万亿美元的...
2020-06-11 08:39 -
hZTD1B 赞赏了
被B站“背叛”的二次元,正成为微博的基本盘
2020-06-10 19:19 -
在天空中自由翱翔的百灵鸟 赞赏了
抖音和快手,哪个平台更适合明星“再就业”?
2020-06-10 14:44 -
钛粉59182 赞赏了
快手教育,能教育快手吗?
2020-06-07 11:08 -
hfJF9q 赞赏了
首发丨企鹅杏仁集团构建深圳城市模型,全面布局基层医...
2020-06-04 08:38 -
商长君 赞赏了
有颜值有科技,奥迪Q3轿跑正式上市 | 一线车讯
2020-06-01 16:29 -
钛粉10448 赞赏了
有颜值有科技,奥迪Q3轿跑正式上市 | 一线车讯
2020-06-01 16:29 -
钛ispSfx 赞赏了
从高端走向平民,这位蔚来前高管想让每个人都玩得起赛...
2020-05-30 22:33 -
钛粉15606 赞赏了
当线上票务,无票可卖
2020-05-25 15:35 -
钛粉58399 赞赏了
当线上票务,无票可卖
2020-05-25 15:34 -
钛粉08710 赞赏了
华为海思深入无人区
2020-05-23 21:17 -
钛粉79603 赞赏了
美国“卡脖子”的技术清单中,EDA软件如何突围?
2020-05-22 20:50 -
钛粉63198 赞赏了
凯风创投文纲:多数人看重医疗大平台机会,我更看重深...
2020-05-22 16:48 -
在天空中自由翱翔的百灵鸟 赞赏了
独家最全解密:全球新冠疫苗竞跑大冲刺 | 钛媒体封...
2020-05-22 16:44 - 查看精彩文章,打开钛媒体客户端
挺钛度,加点码!
- ¥ 5
- ¥ 10
- ¥ 20
- ¥ 50
- ¥ 100
支付方式
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
猜你喜欢
Oh! no
您是否确认要删除该条评论吗?
分享文章