通用计算机时代,终结!
计算机行业经历了一段非凡的增长和稳定时期,摩尔定律功不可没。晶体管密度稳步翻番不仅推动了五十年来处理器的大幅提升,还推动了 通用计算 模式的兴起。不过据麻省理工学院(MIT)和亚琛大学的两位研究人员声称,这一切都将要结束了。
Neil Thompson是MIT计算机科学和 AI 实验室的研究科学家兼哈佛大学的客座教授,Svenja Spanuth是亚琛工业大学的研究生。他们俩表示,摩尔定律的瓦解以及深度学习和加密货币挖掘等新应用的出现,正促使行业远离通用微处理器,转向一种青睐专用微处理器的模式。 他们俩表示:“通用计算机 芯片 的崛起一直很惹人注目,殒落可能也同样惹人注目。”
正如他们俩指出,通用计算并非始终是常态。在超级计算的早期阶段,来自克雷(Cray)等公司的定制矢量架构主导了高性能计算(HPC)行业。如今这种架构仍存在于NEC制造的矢量系统中。但由于摩尔定律在过去几十年大幅提升晶体管的性价比,经济因素使得通用处理器大受青睐。
这主要是由于开发和制造定制芯片的成本在3000万到8000万美元之间。因此,即使对需要高性能微处理器的用户而言,缩小通用处理器中晶体管的尺寸使得定制解决方案带来的任何最初的性能提升荡然无存,采用专用架构的好处很快消失殆尽。同时,缩小晶体管尺寸的成本可以分摊到数百万个处理器上。
但摩尔定律带来的计算经济因素正在发生变化。近些年来,随着基础半导体材料的物理限制开始凸显出来,缩小晶体管尺寸的成本变得极其高昂。论文作者指出,在过去的25年里,制造一家先进芯片制造厂的成本每年增长11%。2017年,半导体行业协会估计新建一家芯片制造厂要花费约70亿美元。这不仅抬高了芯片制造商的固定成本,还将半导体制造商的数量从2002年的25家减少到今天的4家:英特尔、台积电(TSMC)、三星和格罗方德。
研究团队还提到了美国劳工统计局(BLS)的一份报告,该报告试图量化微处理器的性价比。按这个尺度来衡量,BLS发现提升幅度从2000年至2004年的每年48%下降到2004年至2008年的每年29%,继而下降到2008年至2013年的每年8%。
这一切从根本上改变了缩小晶体管尺寸的成本/效益。正如论文作者特别指出,由于建造和运营新芯片制造厂的费用节节攀升,英特尔的固定成本有史以来第一次超过其可变成本。更令人不安的是,三星和高通等公司现在认为,在采用最新工艺的节点上制造晶体管的成本正在增加,进一步打消了制造商力求生产更小尺寸的晶体管的积极性。这可能也是格罗方德最近决定放弃7nm技术背后的原因。
原因不仅仅是摩尔定律日渐式微。促进专用处理器的另一个驱动因素是,出现了一批通用计算无法满足需求的新应用。首先出现了移动设备和物联网(IoT)之类的平台,它们在能源效率和成本方面有很高要求,而且大批量部署,这就势必需要定制芯片,尽管摩尔定律相对较稳健。要求更苛严的低批量应用(比如军用和航空硬件)也有助于特殊用途设计。但论文作者认为,真正让这个行业面临分水岭时刻的是深度学习,这类应用涵盖几乎各种移动环境:移动、桌面、嵌入式、云计算和超级计算。
深度学习及其青睐的硬件平台GPU是计算从通用处理器走向专用处理器的一个最明显的例子。GPU被视为一种半专用的计算架构,由于能够比CPU更有效地进行数据并行处理,已成为训练深度神经网络的事实上的平台。论文作者指出,虽然GPU现在还被用来加快科学工程应用,但让进一步的专门化成为可能的却是深度学习这种高容量应用。当然,GPU已经在桌面游戏领域拥有成熟的业务,GPU最初是针对桌面游戏这种应用设计的。
但就深度学习而言,GPU可能只是相当于“诱导性毒品”(gateway drug)。英特尔、富士通和另外十多家初创公司已经在研制AI和深度学习芯片。谷歌专门用于训练和使用神经网络的自家张量处理单元(TPU)目前处于第三个版本。论文作者写道:“研制一款定制的处理器对谷歌而言非常费钱,专家估计固定成本高达数千万美元。不过好处也很大――专家称,性能提升相当于摩尔定律的七年;避免的基础设施成本使得它物有所值。”
Thompson和Spanuth还特别指出,专用处理器日益应用于超级计算。他们提到2018年11月的TOP500排名显示,专用处理器(主要是英伟达GPU)而不是CPU首次成为性能提升的主要来源。论文作者还对排名表进行了回归分析,结果显示“搭载专用处理器的超级计算机每瓦特所能执行的计算次数几乎是只使用通用处理器的超级计算机的五倍,而这个结果非常具有统计意义。”
Thompson和Spanuth提供了一个数学模型,用于确定专用处理器的成本/收益,考虑到了开发定制芯片的固定成本、芯片数量、定制实现所带来的加速以及处理器提升的速度。由于后者与摩尔定律联系在一起,因此缓慢的步伐意味着即使预期的提升比较适中,更容易证明使用专用芯片的合理性。
论文作者声称:“因此,对于许多(但并非全部)应用而言,现在使用专用处理器在经济上是可行的,至少在硬件方面是这样。换一个角度来看,在2000年至2004年期间,市场规模约83000个处理器的应用将需要专用处理器性能提升100倍才划算。而在2008年至2013年,这种处理器只需要提升2倍就行。”
Thompson和Spanuth还考虑到了为专用处理器改写应用软件的额外费用,他们估计每行代码的费用是11美元。这在一定程度上使这种模式复杂化,因为你得考虑到代码库大小,而代码库并不总是很容易跟踪查明。在这里,他们还指出:一旦代码重新开发工作完成,往往会阻止代码库回到通用平台上。
结论就是,摩尔定律的慢慢消亡揭示了过去的创新、市场扩张和再投资这个良性循环。但随着更多的专用芯片开始蚕食计算机行业的份额,这个周期变得支离破碎。由于较少的用户采用使用最新制造工艺的节点,为芯片制造筹集资金变得更困难,这进一步减缓了技术进步。其影响是,计算机行业分散成了多个专门领域。
由于规模和适用于专用硬件,其中一些领域(比如深度学习)将会处于快车道。论文作者表示,然而像数据库处理这些领域虽然广泛使用,但可能会成为一潭死水,因为这种类型的事务计算并不有助于专用芯片。不过气候建模等其他领域太狭小,用不着自己的定制芯片,不过它们有望从中得益。
论文作者预料,云计算会为较小、较偏冷的社区提供众多基础设施,在某种程度上减弱这种差异性的影响。更多的专用云资源(比如GPU、FPGA以及谷歌的TPU)越来越普遍,这意味着富人和穷人能够在更平等的平台上同台竞技。
这并不意味着CPU甚至GPU会失败。虽然论文作者没有深入研究这个方面,但专用、半专用和通用的计算引擎集成到同一芯片或处理器封装件中的可能性相当大。一些芯片制造商已经走上了这条道路。
比如说,英伟达在其Volta这一代GPU中采用了Tensor Cores,这是专门用于深度学习的专用电路。这么一来,英伟达就能够提供一个既支持传统超级计算模拟,又支持深度学习应用的平台。同样,CPU正与专用逻辑部件集成起来,用于加密/解密、图形加速、信号处理,当然还有深度学习等应用。期待这种趋势会继续下去。