西方唯一 AI 芯片独角兽,单挑英伟达

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

 

以布里斯托市 A38 路旁的喷泉池为起始点,你需要花用不到 20 分钟时间,就可以骑自行车 " 冲 " 出这座英国西南部城市的 CBD,进入几乎只有成排英式平房、灌木丛和河道的郊外。

没错,即便布里斯托(Bristol)是名副其实的英国西南部中心,但从城市规模来看,但它依然被很多中国留学生起了一个非常清新脱俗的名字—— " 布村 "。( " 除了伦敦,其他都是村儿 "。)

然而,如今接触芯片产业后,我们才恍然发现,这座古老的英国小城,竟然藏着英国最强大的半导体产业集群之一。

西方唯一 AI 芯片独角兽,单挑英伟达

图为英伟达在布里斯托的研发中心。2011 年收购英国半导体公司 Icera 后,英伟达便在布里斯托扎根,并在这里 投资 上千万英镑建立新工厂和实验室

1972 年,硅谷大名鼎鼎的仙童半导体(英特尔、AMD 的创始人们都是从这家公司出来的)为进入欧洲市场做出了一个重要决策——在布里斯托设立一个办事处。自此,便打开了这座英国西部小城面向半导体产业的全球视野。

而 6 年后,诞生于布里斯托,并在 80 年代占据全球 SRAM 市场 60% 份额的微处理器公司 Inmos,接受了卡拉汉政府与撒切尔政府高达 2 亿英镑的投资,才终于创造出以布里斯托核心的英国半导体基础设施与生态系统,召集了大批像 XMOS 半导体创始人、英国著名计算机科学家 David May 这样的半导体超级精英。

" 其实布里斯托一直都是英国的 IT 重镇。它与周围的斯温顿、格洛斯特组成一个三角地带,被称为欧洲的‘硅谷’。半导体公司如果在欧洲设立研发中心,布里斯托通常是首选。譬如英伟达、惠普、博通、高通等世界级巨头都在布里斯托设有办事处。"

一位了解欧洲半导体产业的从业者告诉虎嗅,很多人因为 ARM 对剑桥印象深刻,但从历史来看,实际上布里斯托才是英国的芯片设计中心。

" 华为也在布里斯托也有研发中心。"

西方唯一 AI 芯片独角兽,单挑英伟达

就像上世纪 50 年代,8 位天才 " 叛徒 " 离开仙童半导体创立英特尔、AMD、泰瑞达等公司,才成就了如今的硅谷一样,布里斯托才华横溢的工程师们也不甘于停留在 " 过去 " ——在摩尔定律失效争议进入高潮,人工智能、计算结构发生异变的 " 临界点 " 上,没有人不渴望能够成为那个改变时代的领导者。

一位名叫 Simon Knowles 的工程师从剑桥大学毕业后,在 1989 年第一次踏上布里斯托的土地,接受了存储器企业 Inmos 的一份芯片设计工作。

在此后近 20 年里,从 Inmos 内部一个专用处理器团队的领导者,再到两家半导体企业 Element 14 与 Icera 的创始人之一,Knowles 几乎见证了摩尔定律达到巅峰和走向衰落的全过程。而幸运的是,Knowles 参与创立的这两家总估值超过 10 亿美元的公司,分别在 2000 年和 2011 年被博通和英伟达收购。

没有任何意外,这位天才半导体设计师与连续 创业 者,又继续在 2016 年另起炉灶,与另一位天才半导体工程师 Nigel Toon 创立了一家新的半导体设计公司,主动迎击人工智能市场需求触发的芯片架构创新机会。

没错,这家公司就是刚在 2020 年 12 月 29 日宣布完成 2.22 亿融资(这笔融资也让公司的资产负债表上拥有 4.4 亿美元现金),估值已高达 27.7 亿美元,被外媒称为英伟达最大对手之一的人工智能加速处理器设计商 Graphcore。

需要注意,它也是目前西方 AI 芯片领域唯一的独角兽。

西方唯一 AI 芯片独角兽,单挑英伟达

图片为 Graphcore 的 IPU 处理器

西方私募与风投对待半导体这种项目一直非常谨慎,因为它们资金高度密集且无法预估前期投资回报。正如 Knowles 在一次采访时承认:" 与能够小规模尝试、不成功再换一个坑的软件产业相比,如果一枚芯片设计失败,除了花光所有钱,公司几乎无路可选。"

因此,直到 2018 年以后,随着人工智能 商业 化的可能性被持续鼓吹和放大,投资者们才确定可以从 " 人工智能大规模运算驱动芯片结构变革 " 的趋势中看到回报前景。

于是,在 2017 年获得了超过 8000 万美元投资后的 Graphcore,又接连在 2018 年与 2020 年分别获得 2 亿与 1.5 亿美元风险投资。

需要注意的是,除了博世、三星从 A 轮就开始参投,红杉资本是 Graphcore 的 C 轮领投方,而微软与宝马 i 风投则成为其 D 轮融资领投方;

而 E 轮融资的主要参与者,则是非产业基金——加拿大安大略省教师养老金计划委员会领投,富达国际与施罗德集团也加入了这轮融资。

你可以从投资方看出,Graphcore 的产业投资方基本分为三个产业方向——云计算(数据中心)、移动设备( 手机 )与 汽车 (自动驾驶)。没错,这是三个最早被人工智能技术 " 入侵 " 的产业。

图片来自 Crunchbase

工业界们似乎越来越达成这样一个共识,未来需要有一家像 ARM 主导移动设备时代一样的底层创新企业,除了有希望卖出上亿块芯片的同时,也能推动人工智能与各个产业的深度整合,最终触达到上百亿普通消费者。

从产品的角度来看,Graphcore 在 2020 年拿出了相对引人注目的作品——推出第二代 IPU-M2000 芯片,该芯片搭载在一个名为 IPU Machine platform 的计算平台上。另外,其芯片配套的软件栈工具 Poplar 也有同步更新。

" 教计算机如何学习,与教计算机做数学题,是完全不同的两件事。提升一台机器的‘理解力’,底层驱动注重的是效率,而不是速度。" Graphcore CEO Nigel Toon 将新一代 AI 芯片的开发工作视为一个 " 千载难逢的机会 "。

" 任何公司能做到这一点,都能分享对未来几十年人工智能技术创新和商业化的决定权。"

切中英伟达的 " 软肋 "

没有一家 AI 芯片设计公司不想干掉市值高达 3394 亿美元的英伟达。或者说,没有一家公司不想做出比 GPU 更好的人工智能加速器产品。

因此,近 5 年来,大大小小的芯片设计公司都倾向于在 PPT 上,用英伟达的 T4、V100,甚至是近期发布的 " 最强产品 "A100 与自己的企业级芯片产品做比较,证明自己的处理器拥有更好的运算效率。

Graphcore 也没有例外。

他们同样认为,由于上一代的微处理器——譬如中央处理器(CPU)和图形处理单元(GPU)并不是为人工智能相关工作而专门设计,工业界需要一种全新的芯片架构,来迎合全新的数据处理方式。

当然,这样的说法并不是利益相关者们的单纯臆想。

我们无法忽视来自学术界与产业界对 GPU 越来越多的杂音——随着人工智能算法训练与推理模型多样性的迅速增加,在诞生之初并不是为了人工智能而设计的 GPU 暴露出了自己 " 不擅长 " 的领域。

" 如果你做的只是深度学习里的卷积神经网络(CNN),那么 GPU 是一个很好的解决方案,但网络已经越‘长’越复杂,GPU 已经难以满足 AI 开发者们越来越大的胃口。"

一位算法工程师向虎嗅指出,GPU 之所以快,是因为它天生就能并行处理任务(GPU 的释义和特点可以看《干掉英伟达》这篇文章)。如果数据存在 " 顺序 ",无法并行,那么还得用回 CPU。

" 很多时候既然硬件是固定的,我们会想办法从软件层,把存在顺序的数据,变为并行的数据。譬如语言模型中,文字是连续的,靠一种‘导师驱动’的训练模式就可以转换为并行训练。

但肯定不是所有模型都可以这么做,譬如深度学习中的‘强化学习’不太适合用 GPU,而且也很难找到并行方式。"

由此来看,学术圈不少人甚至喊出 "GPU 阻碍了人工智能的创新 " 这句话,并不是耸人听闻。

深度学习的 4 个发展脉络,制图:宇多田

" 深度学习 ",这个近 10 年来机器学习领域发展最快的一个分支,其神经网络模型发展之快、类型之广,只靠 GPU 这块硬件的 " 一己之力 " 是很难追上其复杂运算脚步的。

Graphcore 回复了虎嗅一份更为详尽的答案。他们认为,对于深度学习中除去 CNNs 的另外几个分支,特别是循环神经网络(RNN)与强化学习(RL),让很多开发者的研究领域受到了限制。

譬如,用强化学习做出了阿尔法狗的英国 AI 公司 Deepmind,很早就因为 GPU 的计算局限问题而关注 Graphcore,其创始人 Demis Hassabis 最后成为了 Graphcore 的投资人。

" 很多企业产品部门的开发者把需求(特别是延时和吞吐量的数据指标)交给算力平台部门时,他们通常会拒绝说 ‘ GPU 目前不够支持这么低的延时和这么高的吞吐量’。

主要原因就在于,GPU 的架构更适用于‘静态图像分类与识别’等拥有高稠密数据量的计算机视觉(CV)任务,但对数据稀疏的模型训练并不是最好的选择。

而跟文字相关的 " 自然语言处理 "(NLP)等领域的算法,一方面数据没那么多(稀疏),另一方面,这类算法在训练过程中需要多次传递数据,并迅速给出阶段性反馈,以便为下一步训练提供一个便于理解上下文的语境。"

换句话说,这是一个数据在持续流动和循环的训练过程。

就像淘宝界面的 " 猜你喜欢 ",在第一天在 " 学习 " 了你的浏览和订单数据后,把不太多的经验反馈给算法进行修正,第二天、第三天以及未来的每一天不断学习不断反馈,才会变得愈加了解你的产品喜好。

而这类任务,譬如谷歌为更好优化用户搜索在 2018 年提出的 BERT 模型,便是优秀且影响深远的 RNN 模型之一,也是 Graphcore 提到的 "GPU 非常不擅长的一类任务 "。为了解决这类问题,仍然有很多公司在使用大量 CPU 进行训练。

CPU 与 GPU 架构对比

从根本上看, 这其实是由当下芯片运行系统最大的瓶颈之一决定的 ——如何在一块处理器上,将数据尽可能快地从内存模块传送到逻辑操作单元,且不费那么多功耗。在进入数据爆炸时代后,解锁这个瓶颈便愈加迫在眉睫。

举个例子,2018 年 10 月 BERT-Large 的模型体量还是 3.3 亿个参数,到 2019 年,GPT2 的模型体量已达到 15.5 亿(两个均属于自然语言处理模型)。可以说,数据量对从系统底层硬件到上层 SaaS 服务的影响已经不可小觑。

而一块传统的 GPU 或 CPU,当然可以执行连续多个操作,但它需要 " 先访问寄存器或共享内存,再读取和存储中间计算结果 "。 这就像先去室外地窖拿储存的食材,然后再回到室内厨房进行处理,来来回回,无疑会影响系统的整体效率和功耗。

因此,很多半导体新兴企业的产品架构核心思路,便是让 " 内存更接近处理任务,以加快系统的速度 " ——近存算一体。 这个概念其实并不新鲜,但能做出真东西的公司少之又少。

而 Graphcore 到底做到了什么?简单来说,便是 " 改变了内存在处理器上的部署方式 "。

在一块差不多像小号苏打饼一样大的 IPU 处理器上,除了集成有 1216 块被称为 IPU-Core 的处理单元,其与 GPU 和 CPU 最大的不同,便是大规模部署了 " 片上存储器 "。

简言之,便是将 SRAM(静态随机存储器)分散集成在运算单元旁,抛弃了外接存储,最大程度减少数据的搬移量。而这种方法的目标,就是想通过减少负载和存储数量来突破内存带宽瓶颈,大大减少数据传输延迟,同时降低功耗。

IPU 架构

也正因为如此,在一些特定算法的训练任务中,由于所有模型都可以保存在处理器中,经过测试,IPU 的速度的确可以达到 GPU 的 20~30 倍。

举个例子,在计算机视觉领域,除了大名鼎鼎且应用广泛的残差网络模型 ResNets(与 GPU 很契合),基于分组卷积与深度卷积方向的图像分类模型 EfficientNet 和 ResNeXt 模型也是逐渐兴起的研究领域。

而 " 分组卷积 " 有个特点,就是数据不够稠密。

因此,微软机器学习科学家 Sujeeth 用 Graphcore 的 IPU 做了一次基于 EfficientNet 模型的图像分类训练。最后的结果是,IPU 用 30 分钟的时间完成了一次新冠肺炎胸部 X 光样片的图像分析,而这个工作量,通常需要传统 GPU 用 5 个小时来完成。

重重考验

但是,就像 GPU 的大热与计算机视觉领域的主流算法模型 ResNets 的广泛应用的相辅相成,决定 Graphcore 成功还是失败的关键,也在于 " 特定 "。

就像 Graphcore 销售副总裁兼中国区总经理在接受虎嗅采访时指出:

一方面,他们的产品的确更适用于训练市场中数据较为稀疏,精度要求较高的深度学习任务,譬如与自然语言处理相关的推荐任务,这也是阿里云与百度愿意与之达成合作的重要原因之一。

另一方面,计算机视觉领域刚流行起来的新模型,是 IPU 在努力 " 攻克 " 的方向,而之前很多模型,还是 GPU 最应手。

此外,GPU 创造的强大软件生态 Cuda,比硬件更不容易被破坏( 关于 Cuda,也在《干掉英伟达》这篇文章里有详细解释) ,而这层围墙恰恰是开辟产业影响力的关键。

毫无疑问,Graphocore 在这方面根基尚浅,因此除了常规操作,他们选择基于编程软件 Poplar,做一些相对大胆的尝试。

譬如,他们在自己的开发者社区开放计算图库 PopLibs 的源代码,让开发者去尝试描述一种新的卷积网络层。这一层对标的是 GPU 的 cnDNN 和 cuBLAS,而英伟达并没有开放它们。

为了向开源社区致敬,Poplar v1.4 增加了对 PyTorch 的全面支持。这一聪明的举动将有助于简化人们的接受程度,有助于吸引更广泛的社区参与。

此外,为了能够尽快打开市场,Graphcore 并没有走 " 打比赛来提升产业知名度 " 的实验室销售路线,而是将 IPU 直接推入了产业界, 去逐个敲开服务器集成商、云厂商等客户的大门

"AI 这个行业本身,不管是算法的迭代还是模型的变化,其实都是非常快的。有云厂商曾抱怨,说某家处理器跑某一种模型性能非常好,但模型稍微改一改,跑出来的性能就大跌眼镜。"

Graphcore 中国区技术应用总负责人罗旭认为,尽管市场在大量鼓吹 ASIC(专用芯片)和 FPGA(可编程芯片),但通用性,仍然是产业界考虑芯片的首要条件,尤其是 互联网 厂商。

" 互联网厂商应用非常多,每个应用都会有不同的适用模型。如果一个处理器只能适配一个模型,那客户是无法引入这个处理器做大量推广的。"

而 " 编程环境是否友好 ",也就是英伟达 Cuda 贡献的那种力量,是第二个关键的采购指标。

" 现在客户一般都是用 AI 框架来设计模型,比如谷歌的 TensorFlow、Facebook 的 PyTorch 等等。他们会考虑这枚处理器的上层 SDK 是否能够轻松接入到框架里,以及编程模型是否好用。

客户可能会有一些算子级别的优化,需要做一些自定义算子。自定义算子开发起来是否方便其实也是取决于编程友好性如何。"

如果说客户还在乎什么,当然是产品性能。

无论是云厂商、服务器厂商还是通过云服务购买算力的开发者,都会测试多种模型跑在芯片上的性能表现。

" 如果他们主要看重 NLP(自然语言处理)模型,那在性能测试时就可能重点测一下 BERT。如果他们看重计算机视觉,那在性能测试时就可能重点测试一些计算机视觉的经典模型。

总的来说,客户需要从以上几个维度综合评估下来,才能决定到底要不要使用这个处理器,或者说,必须确定这个处理器能给他们带来多大的收益。"

而在这个方面,无论是英伟达,还是 Graphcore 的 IPU 或其他厂商的专用芯片, 都是有自己最擅长的模型,只能说是 " 各有千秋 ",绝对不能以偏概全。

赢家通吃,将不复存在

从 Graphcore 给出的产品基准测试指标与宣传重点来看, 这家公司正在拿着锤子找钉子,努力扩展 IPU 擅长的应用场景,以便让 IPU 架构能够发挥最大效率。

换句话说,Graphcore 或许会分英伟达的一杯羹,但永远不可能取代它们。

正如 " 特定 " 这个词的含义所限,人工智能训练与推理芯片市场,因模型的多样性与复杂性,一定能够容纳包括英伟达、Graphcore 在内更多的芯片企业。

Nigel Toon 也承认,人工智能计算将孕育出三个芯片垂直市场:

相对简单的小型专用加速器市场,譬如手机、摄像头以及其他智能设备里的某个 IP 核;

再譬如适用于数据中心某几个功能的 ASIC 芯片,具体问题具体解决,超大规模数据中心运营商(云厂商)将在这个市场中有大量机会;

最后一个是可编程的 AI 处理器,也就是 GPU 所在的市场。这个市场一定会有更多企业,同时未来更多的创新也一定会产生更大的份额。

CPU 会持续存在,GPU 也会持续创新,他们在某些 AI 计算任务上都是不可或缺的,或者说是最好的选择。但是摩尔定律失效、AI 计算和数据爆炸等趋势催生出的新市场,一定是巨大且多样性的。正是因为多样性,所以才给了更多专用芯片公司新的机会。

因此,像 Cerebras、Groq、 SambaNova Systems 、Mythic AI 这样的芯片创业公司才得以筹集到数亿美元资金,英特尔也在今年投资了革新 AI 芯片架构的 Untether AI。已经有不少人给出这样的预测——新一代的‘ 苹果 ’与‘英特尔’可能会在人工智能计算市场中诞生。

在软件还没有跟上硬件步伐的当下,这意味着激烈的竞争才刚刚开始。

来源:虎嗅APP

随意打赏

提交建议
微信扫一扫,分享给好友吧。