中国最早做RISC-V技术的公司仅用7个月设计了一款性价比远超同级别Arm架构的AI芯片

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

诞生于加州大学伯克利分校的RISC-V开源指令集近来在中国关注度非常高。5月,上海发布国内首个RISC-V的支持政策。9月,中国RISC-V产业联盟在上海成立。11月,中国开放指令生态(RISC-V)联盟在乌镇宣布成立。有意思的是,中国最早做RISC-V的公司选择了落户深圳,并且仅用7个月就设计出了一款基于RISC-V指令集的AI芯片,能耗和面积明显优于同级别Arm架构芯片,更让行业吃惊的是该款芯片一次性流片成功。这是否意味着在AI和IoT领域Arm即将面临一场与新兴技术的硬战?

仅用7个月完成芯片研发的两大关键

仅用7个月就完成从零开始设计验证到交付流片全部研发工作的公司叫做睿思芯科,是2017年在美国硅谷初创的OURS公司在深圳设立的中资公司,OURS创始人兼CEO谭章熹在清华大学电子工程系获得学士学历,后前往加州大学伯克利分校深造,师从新晋图灵奖得主David Patterson,取得了计算机科学博士。我们知道,RISC-V就出自2017 年新晋图灵奖得主David Patterson之手,这意味着谭章熹博士成了离RISC-V技术最近的中国人。

谭博士接受雷锋网专访时表示:“说我们是中国最早做RISC-V指令集芯片的公司应该不会有争议,之所以把中资公司设立在深圳是因为我觉得无论从环境、文化还是人才的角度,深圳和我们最匹配。我们基于RISC-V指令集的AI芯片Pygmy仅用7个月就完成了从零开始设计到交付流片的工作。”

谭博士提到的 Pygmy AI芯片并没有隆重的发布会,首次亮相是在本月初Patterson教授乌镇世界互联网大会的演讲中,Pygmy也在大会期间展出。 据雷锋网了解,Pygmy是全球最小的鹦鹉。谭章熹透露,睿思芯科的第二代架构叫Pocket,是世界上第二小的鹦鹉。不难发现,睿思芯科的架构和产品都以鸟的种类命名,但新一代产品命名使用的鸟的体型比上一代大,谭博士希望公司的产品能覆盖越来越大的市场空间。

中国最早做RISC-V技术的公司仅用7个月设计了一款性价比远超同级别Arm架构的AI芯片

谭章熹和他的博士导师David Patterson

睿思芯科的产品命名很有特色,但更吸引人关注的是其如何在7个月内完成全部研发工作。谭章熹表示:“之所以能在不到一年的时间完成全部研发工作,一个很关键的因素就是RISC-V指令集。我们知道微处理器的设计很难,因为软件和硬件接口的地方很多,比如OS、SW framework、模拟器等,不过我们依靠RISC-V的生态,生态中的开发工具、工具链等帮助我们缩短了芯片的校验时间。另一个很关键的因素就是我们有经验丰富的工程师,我们的工程师对RISC-V更深的理解以及知道设计芯片的关键对缩短芯片研发的时间也非常关键。”

到底是架构更重要还是经验丰富的工程师更加重要?谭章熹表示两者同等重要,当然睿思芯科的芯片量产也会有必要的周期。 他同时指出,想要在7个月内完成芯片的全部设计工作并不容易,除了需要对指令集有深刻理解以及有经验丰富的工程师明白如何做芯片业非常关键,软件也非常关键。特别对AI而言,AI算法的不断演进对芯片算力和和内存的要求也会不断提升,因此芯片需要具备快速迭代的能力,此时架构和软件都将发挥关键的作用。

能耗和面积明显优于同级别Arm架构芯片

时间上Pygmy仅用7个月就完成了全部研发工作,但芯片的性能却很强,根据睿思芯科的说法, Pygmy对比同级别的Arm芯片,能耗下降85%,面积减少80%,相当于用一般的32位处理器的面积和功耗就实现了64位处理器的性能。 具体看,Pygmy基于64位RISC-V指令集,使用台积电28nm工艺,采用多核异构架构,其中CPU架构是睿思芯科基于RISC-V指令集设计而成,并针对多种AI应用进行了优化,还有12个高度可编程AI加速引擎,同样基于睿思芯科自定义开发的RISC-V矢量扩展指令集设计而成。

性能方面,Pygmy主控CPU具有64位位宽,主频600 MHz,基于RV64G指令集,支持双精度浮点运算,具备乘法器、除法器、开方器等;12个AI内核均为高度可编程,可以支持各种主流AI算法。能耗方面,主控CPU功耗仅为10mW,通过前端/后段的全栈设计,待机设计功耗不超过1mW。并且,Pygmy在Int8时可实现4 TOPS/watt,作为对比,Google第一代28 nm TPU 92 TOPs 超过 40 watt,差不多2.3 TOPS/watt。另外,提供Pygmy芯片的同时睿思芯科还开发了编译器、SDK、工具链,基于GCC、LLVM等开源实现,可以支撑Pygmy用户更好的进行二次开发。

中国最早做RISC-V技术的公司仅用7个月设计了一款性价比远超同级别Arm架构的AI芯片

Pygmy芯片

需要指出的是,虽然上面提到Pygmy对比同级别Arm芯片能耗和面积都有超过80%的下降,但因为目前没有Arm芯片与Pygmy完全类似,因此作对比的是Pygmy主控CPU。那么, Pygmy到底是如何实现的低功耗和高效能?谭章熹表示:“最主要的还是因为RISC-V架构的精髓——简单、面积小、速度快。 因此我们不仅可以做架构创新,也可以把我们的芯片做的最简单和高效,我们刚开始设计Pygmy的时候也没想到能得到这么好的成绩。”

除了架构上不需要由复杂向下精简,架构上的创新也很重要。Pygmy采用了多核异构的架构,谭章熹表示:“通用的CPU也能处理AI的任务,但是效率不高,这时候就需要有特殊和核心和架构来满足AI的需求。Pygmy除了有主控CPU还有12个高度可编程的AI加速引擎,主要针对神经网络以及CNN算法进行了优化,能够支持AI图像和语音的应用。之所以集成的是12个可编程AI加速引擎,是和我们芯片的面积有很大的关系。当然 12个加速引擎只代表一个边界,根据不同应用的性能及功耗需求,可以配置数量不同的可编程AI加速引擎,并且我们的团队能够在3个月内就完成AI加速引擎核的定制。 未来,我们还会推出能集成更多AI加速引擎的产品。” 需要指出,异构架构会带来芯片编程复杂性的增高。

另外,AI芯片选择支持的数据类型也非常重要,因为目前哪种数据类型最适合深度学习还没有定论。据悉,Pygmy之所以支持Int8和FP16两种数据类型一方面是出于芯片模组性能和功耗的表现支持这两种数据类型时在终端上的推理表现良好,另一方面是用户的需求,因为除了芯片,相应的的软件及应用也需要支持对应的数据类型。

还有,AI芯片消耗能量更多的是数据的搬运而非计算,因此如何减少数据的搬运以及数据类型的支持对于AI芯片的设计者而言也是必须考虑的问题。可以看到的是Pygmy上搭载了1 MB的SRAM支持LPDDR4、SPI、UART等数据输入输出模式。但 对于如何减少数据搬运的耗能,谭章熹透露,睿思芯科有自己比较独特的技术,主要是在架构设计上有所考虑,另外就是通过软件进行控制而非传统意义上的硬件管理。

当然,无论是传统的芯片还是AI芯片,除了性能、功耗以及面积,成本也至关重要。谭章熹表示,之所以选择28nnm工艺而非更先进的工艺是因为先进工艺的提升成本越来越高,但性能的提升却有限,综合来看28nm对于睿思芯科而言是性价比最高的选择。

Arm在IoT领域迎来与RISC-V的硬战?

既然Pygmy整体表现优于Arm同级别芯片,Pygmy也是面向各种物联网终端的AI推理场景。同时我们还看到,国外的GreenWaves,国内的中天微系统、君正集成电路、华米推出的基于RISC-V指令集的芯片都面向物联网市场,这是否意味着RISC-V指令集芯片在IoT领域已经势不可挡?

谭章熹表示:“RISC-V在整个软件生态上与Arm的生态还有一定的距离,Arm也有一定的技术优势,这不是短期内建立的。 不过我乐观地认为RISC-V缩小与Arm生态之间的差距要比Arm赶上x86所需的时间要短。 至于与Arm的竞争,在手机芯片领域RISC-V的机会不大,但目前我们看到了AI以及IoT,在新兴的领域RISC-V有非常大的机会。因为在IoT市场,有非常多的差异化需求,并且每个地区和市场的还可能有特性的需求,因此在这一市场大公司有其竞争优势,小公司也有优势。”

中国最早做RISC-V技术的公司仅用7个月设计了一款性价比远超同级别Arm架构的AI芯片

更具体地说, 对于新兴的应用,RISC-V指令集的芯片能够更加灵活,小公司能够更好地满足这些应用的需求,这将在很大程度上与Arm行程竞争。至于已经在Arm上投入很多且从中获益的公司,其竞争对手以及成本可能是其选择RISC-V的关键因素。 据雷锋网 (公众号:雷锋网) 了解,包括谷歌、英伟达、高通、AMD、IBM、华为等巨头都已经加入了RISC-V基金会,有一些Arm的用户已经开始接触RISC-V有一两年时间,一旦有其中一家公司推出能效和成本更低的RISC-V芯片,其竞争对手也会迅速跟进,这对于RISC-V指令集不仅是种认可,也将有利于RISC-V与Arm的竞争。

不过,睿思芯科到底会选择哪些AIoT应用切入市场谭章熹并没有透露。但他表示睿思芯科的业务模式将不是仅仅提供定制化的芯片或者模组,而是会基于已有的产品,做垂直的服务,提供定制化的解决方案。当被问到是否会进入热闹的安防市场的时候,他表示会对安防市场保持关注,要进入这一市场一定会是战略合作伙伴的方式,并且会找到一个特定的应用角度切入,而非常见的监控摄像头。

谭章熹也表示,即便是在新的IoT和AI市场,RISC-V想要占据优势也并非一家企业可以实现的,而是要一个完整的系统,这需要五年甚至十年,但我自己非常有信心。 对于目前的RISC-V市场,还没有到需要彼此激烈竞争的阶段,而是更应该共同把生态做大。 仅组建联盟而没有拿出实际的产品也不是发展和壮大RISC-V好的方式,更多的应该是拿出实际的产品以及进行实质的合作,进一步能为RISC-V的生态做一些贡献。

雷锋网小结

谭章熹作为离RISC-V技术最近的中国人,他认为RISC-V的精髓在精简、面积更小、速记更快,基于RISC-V指令集可以设计出更好的芯片,授权费,便宜在灵活性和开放面前显得不是那么重要。而他对RISC-V的理解以及他在芯片领域的积累让他和他的团队能够在七个月内就完成一款芯片的全部研发工作。当然,无论是在美国的OURS还是在深圳的睿思芯科,在文化以及做事方式上都有不少的硅谷作风。

Arm在手机领域的地位难以撼动,但是在AIoT领域Arm显然已经感受到来自RISC-V阵营的竞争,并对此保持关注。因此,在AIoT领域到底是RISC-V能占据优势还是Arm,我们只能让时间给我们答案,毕竟从历史的经验来看,一个技术的成功除了技术本身,还关系到非常多的因素。

相关文章:

OURS谭章熹:开源RISC-V指令架构与AI芯片 | CCF-GAIR 2018

OURS谭章熹:就算不替代Arm,RISC-V架构AI芯片无疑也是IoT时代的重要玩家 | CCF-GAIR 2018

让Arm感到压力的开源指令集RISC-V,我们对它有些误解?

中国最早做RISC-V技术的公司仅用7个月设计了一款性价比远超同级别Arm架构的AI芯片

随意打赏

risc-v arm
提交建议
微信扫一扫,分享给好友吧。