速度超高端GPU数百倍,摩尔定律的未来是「光」?

雷锋网  •  扫码分享

自各家芯片厂商开始将芯片微缩制程作为发展重点开始,业内关于“摩尔定律是否就快走到尽头”的讨论就未停止过。

中国工程院院士许居衍曾就下一波芯片技术前瞻主题,针对CMOS和新器件、冯·诺伊曼架构和新兴架构列举了四类技术方向:

一类是硅CMOS 技术与冯·诺依曼结合的“硅·冯”范式;一类是能进入跟CMOS雷同的二值开关,新器件与冯·诺伊曼架构的结合的“类硅”模式;另外一类是仍利用现有硅CMOS器件技术,但不通过冯·诺依曼架构而是通过神经突触传递,存算一体的“类脑”模式;最后一类是以新兴架构和新器件来做的“新兴”范式。

光,可以被视为最后一类新兴范式中的一种,曾在与电子芯片竞争中落后。而如今却有了新的突破,有潜力成为后摩尔时代另辟蹊径、实力强劲的一员。

本月,光子计算芯片公司曦智科技发布了其最新的高性能光子处理器,在单个光子中集成超过10000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU的数百倍,就充分验证了光子芯片的优越性。

速度超高端GPU数百倍,摩尔定律的未来是「光」?

在通用计算赛道上落败的光子计算

既然光子计算赋予芯片的性能提升要远远大于电子芯片,那么自墨子时期就已经被人类发现的光,为何没能在芯片领域跑赢电子呢?

速度超高端GPU数百倍,摩尔定律的未来是「光」?

曦智科技创始人兼CEO沈亦晨

曦智科技创始人兼CEO沈亦晨告诉雷峰网 (公众号:雷峰网) ,实际上在半导体刚刚起步时,就有光与电两种技术范式,只是发展一段时间后,整个行业几乎都覆盖到基于数字电子的计算范式上。

数字电子计算范式之所以能够取胜,原因有二。

一方面图灵计算的兴起,包括冯·诺依曼在内的数字芯片架构,可以让数字芯片通过逻辑门实现几乎所有的通用计算,且应用广泛 。

另一方面,上世纪80年代,基于逻辑门的光子数字计算与电子计算在通用计算赛道上竞争时,都基于晶体管做运算,但当电晶体管随着制程推进不断微缩,越做越小时,光晶体管的尺寸一直未能打破波长限制,无法比100nm更小,自此落败电子芯片。

但近些年,情况发生了转变,尤其电子芯片发展至今,在算力、数据传输和存储方面都遇到瓶颈,继续在电子计算技术范式上寻求突破口步履维艰 。

算力瓶颈是第三次人工智能浪潮下最常谈的问题,晶体管微缩带来的电子隧穿现象,导致先进制程下的晶体管功耗无法进一步降低,因此一些公司寄希望于通过扩大芯片面积的方式来提升算力,不过最后却发现,更大的面积需要更长的铜导线,更长的铜导线产生更多的热量,因此芯片能效比并没有随着面积扩大而得到太大提升。

英伟达通过电互连芯片的方式提升算力,但受限于互连带宽,互连100颗芯片或板卡,只能达到单块板块的10倍算力,互连效率并不高。

而现在,光计算的架构在改变。AI计算的普及也为光计算带来了更广阔的前景。 “我们认为,光是最适合解决这些困境的底层技术方式。” 沈亦晨给出了自己的答案。

光学计算完全不同于电子计算,它以光子的信息处理为载体,依赖光硬件而非电子硬件,用光运算代替电运算,擅长快速并行处理高度复杂的计算任务。

他认为,一方面,光在通信领域已经充分证明了自己优越性,目前所有远距离的通信,包括数据中心中服务器之间的通信,都是基于光纤传输,另一方面,越来越多的人工智能做线性运算,而光的干涉本身就是线性工程,与电相比有天然优势。

这一答案有着强有力的论证,2016年,MIT博士沈亦晨所在的研究团队打造出了首个光学系统,并在2017将这一成果发表在顶级期刊Nature Photonics杂志封面上。

其创新有二,硬件上用光干涉仪作为基本的矩阵运算单元有效取代传统电子晶体管,算法上开发了一系列在不牺牲性能条件下有效降低深度学习计算量并适应于光子芯片的算法。

光子计算成果初现

这一实验成果的发布,启发了全球范围内一大批人开始关注光子AI芯片,沈亦晨本人也从MIT团队走向业界,创办了专注研发光子芯片相关技术的公司曦智科技(Lightelligence)。

公司成立一年半之时,曦智科技成功开发出世界第一款光子芯片原型板卡,成功演示了用光子芯片运行Google Tensorflow自带的卷积神经网络模型来处理MNIST数据集,即使用计算机识别手写数字的基准机器学习模型处理数据集。整个模型超过95%的运算都有在光子芯片处理完成,此原型板卡的问世向全世界证明了用光子代替电子进行AI计算的可行性。

测试结果显示,光子芯片处理的准确率已经接近电子芯片(97%以上)。

距离这块原型板卡发布不到两年,2021年12月,曦智科技又取得新进展,发布了高性能光子计算处理——PACE(Photonic Arithmetic Computing Engine,光子计算引擎)——单个光子芯片中集成超过10,000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU的数百倍。

速度超高端GPU数百倍,摩尔定律的未来是「光」?

“相比于2019年推出的那款原型板卡,我们的PACE在光子器件的集成度上大约提高了两个数量级,从100个光子器件到10000个光子器件;运行系统时钟提高四个数量级,基本达到目前电子芯片的时钟。”沈亦晨说道。

速度超高端GPU数百倍,摩尔定律的未来是「光」?

值得注意的是,PACE并不是纯粹的光子芯片,PACE包含64x64 的光学矩阵,核心部分由一款集成硅光芯片和一块CMOS微电子芯片以3D封装形式倒装堆叠而成。其中,电芯片主要用作数据存储和数模混合调度,光芯片主要用作数据计算。

“我们认为,电存储技术,尤其在高速存储读取方面,会在很长一段时间之内领先于光。这也是我们采用光电协同的原因。”沈亦晨解释道。

PACE运行时,每个输入向量值首先从片上存储中提取,由数模转换器转换为模拟值,通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,形成输入光矢量。

速度超高端GPU数百倍,摩尔定律的未来是「光」?

 

接着,输入光矢量通过光矩阵完成运算传播,产生输出光矢量,并达到一组光电探测器阵列,从而将光强转换为电流信号。

最后,电信号通过微凸点返回到电子芯片,通过跨阻放大器和模数转换器返回数字域。

沈亦晨表示,曦智科技所使用的光调制器,是基于马赫曾德干涉仪方案做光与光之间的干涉,并同算法协同优化的小尺寸高速可调的光调制器。由于光在传播时不放热,完成矩阵运算花费时间少,延时低于电芯片,矩阵乘法并行能力更强。

PACE采用迭代法来解决全球难以高效解决的数学问题——多项式复杂程度非确定性问题,涉及生物信息中蛋白质结构预测,物流交通调度、材料研发等问题,商业应用前景广阔。

曦智科技也做出了自己产品规划,计划在自2022年开始的1到3年内,在对算力、延时痛点强的应用场景落地,例如金融和云服务厂商,之后加强对训练市场的布局,最后延伸至GPU、车载芯片等市场。

“突破”摩尔定律,彻底取代还是并行发展?

事实上, 除曦智科技外,也有不少大厂开始投入光子计算芯片的研发。据了解,华为、英特尔、英伟达目前都有入局光子计算。

光子计算赛道上的玩家越来越多,是否意味着,在未来,光子计算芯片将有能力彻底取代电子芯片,“突破“摩尔定律?

回到对摩尔定律的讨论上,尽管光子计算是另一条截然不同的技术路线,但硅光芯片依然基于传统的CMOS工艺,依赖现有的生态、固件和软件就能满足基本的设计需求。工艺制造方面,只需要在步骤上稍作修改,例如在光的探测器制造方面引入其他新设备。

此前基于光的晶体管体积庞大,在与电子计算的竞争中落败,但如今光子计算改变了原先使用晶体管与电子计算竞争的路径,利用在线性运算上的优势做光学器件,一个光学器件的运算性能相当于上千个电晶体管,且65nm或45nm的CMOS工艺制程就能满足现有光芯片的所有制程要求,哪怕是在未来,硅光技术迭代也不会对制程要求特别严苛,更多是主频、波长方面的迭代。

这意味着,哪怕摩尔定律已经逼近物理极限,对光子计算芯片也不会有太大影响。不过这并不意味着光子芯片能够完全取代电子芯片。

沈亦晨表示,在可预见的未来范围内,都是光子与电子芯片深度结合的光电混合运算,曦智科技的光电混合芯片与客户的交互都是通过电芯片来完成的,所有的指令编译器和SDK都承载在电芯片上。与电芯片相比,光芯片主要承载线性计算和数据网络两大部分,电芯片的好处在于与现有的市场环境、软件环境互相兼容。

“光与电的关系就好比新能源汽车和燃油汽车,只是在引擎和电池方面有所改变,诸如轮胎之类的器件依然相同,将有效地与现有使用场景兼容。光不会完全取代电。”沈亦晨说道。

相关文章:

为摩尔定律续命:从SoC转向Chiplet“小芯片”

为摩尔定律“续命”,小芯片何时普及?

AI时代的摩尔定律?黄氏定律预测AI性能将逐年翻倍

雷峰网原创文章,未经授权禁止转载。详情见。

随意打赏

提交建议
微信扫一扫,分享给好友吧。