数据量爆炸,如何让高性能计算「突变」?

雷锋网  •  扫码分享

数据量爆炸,如何让高性能计算「突变」?

作者 | 包永刚

编辑 | 王   川      

2016年AlphaGo与李世石的人际围棋大战结束后,芯片工程师刘强感受到了突如其来的变化。

6年没更新的PCIe3.0标准,在2017年突然升级到PCIe4.0。随后的2019年和2021年,PCIe5.0和PCIe6.0相继发布,这个速度让刘强感到意外。

“通常而言, 通信协议标准大概5年演进一代,现在变成了2年就迭代一次。 ”刘强恍然大悟,AI应用持续爆发带来的大量数据,让高性能计算(HPC)和数据中心的数据传输带宽成为了瓶颈。

PCIe这个高速总线标准,就像是HPC和数据中心内部的高速公路,连接着计算、存储等组件,数据太多导致系统出现了拥塞。

与AI一样,自动驾驶汽车也考验着传统HPC系统。

新思科技总裁Sassine Ghazi在2023新思科技开发者大会上指出:“如今,一辆现代化的汽车上大概运行着1亿行代码,到2030年将超过3亿行。 3亿行是个什么概念呢? 比如新思科技,我们已经深耕软件行业多年,产品种类丰富而全面,我们公司有大约3亿行代码量。”

自动驾驶汽车、AI、云计算、短视频兴起带来的数据爆炸式增长,像是“突然”改变了HPC行业。

各种应用对数据中心系统计算、存储和网络带宽的性能要求更高,需求还各不相同,此时需要的是最全面的EDA工具和可配置的IP,而新思科技推出的业界领先的全面HPC和数据中心解决方案正是最优解。

数据爆发,高性能计算「突变」

高性能计算 (HPC)这个概念在20世纪五六十年代出现时 ,只有气象、航天等少数应用有需求。

云计算、AI和自动驾驶汽车的飞速发展,短视频的兴起,在线购物席卷全球,即时通信软件不断普及,让高性能计算不再局限在少数领域。

如果把HPC硬件比作建房子,以前只有几个人能买得起房子,这是取少数几个人对房子需求的最大公约数,建出标准化的房子就足够。现在成千上万人都有买房子的需求,并且每个人对房子的功能和装修要求各不相同,必须要造出差异化的房子。

在芯片行业工作了20多年的芯片工程师赵伟,深切感受到这种突变是在短视频兴起之时。

“短视频兴起前,没人想过同一个视频会被上千万人甚至上亿人在各种手机、平板电脑、PC上观看。”赵伟意识到,“短视频的火爆需要上层软件对不同客户端做适配,下层的硬件和网络带宽也要做相应的匹配。”

随着短视频、线上购物、即时通信等行业的竞争日趋激烈,提升产品体验和实现差异化功能变成主旋律,上层需求向基座技术传导,HPC和数据中心硬件设施要全面升级。

服务器和云计算服务的芯片从纯CPU单一架构,走向了CPU+GPU,再朝着CPU+GPU+DPU的多架构方向, 算力、系统复杂性都呈现指数级增加。

解决复杂问题一定要有系统性思维,作为全球EDA、IP和软件安全解决方案的领导者,新思科技前瞻性的提出了“SysMoore”理念。

Sassine Ghazi说,“如今, 芯片设计已经从规模复杂性向系统复杂性转变, 对软硬件的交叉点进行优化才是科技创新的真正推动力,因此新思科技提出了‘SysMoore’, 即从系统层面开展芯片设计,在传统芯片与系统之间进行优化。”

SysMoore时代,芯片行业面临着软件复杂性、系统复杂性、能效、信息安全和功能安全以及产品上市时间这 五大关键挑战。这在HPC领域的体现尤为突出。

新思科技提供的业界最全HPC和数据中心解决方案 ,包含从芯片设计到实施部署、半导体IP、光互连,以及从芯片到软件的验证等领先技术,帮助开发者优化设计方案,并提升设计效率。

“端到端的解决方案对客户的支持更全面,能够降低客户的使用难度,更好更快地帮助客户产品落地。”新思科技中国区副总经理姚尧强调端到端解决方案的重要性。

全方位支持,也包括了新思科技能够提供从系统设计到芯片实现的差异化服务团队,最大化满足客户的所有差异化需求。

新思科技的专家顾问团队可以为合作伙伴提供差异化的端到端服务咨询方案,覆盖从执行专门任务、处理单个模块到全芯片实现的 SoC 开发全流程。无论开发者是要将设计迁移到先进的 FinFET 工艺节点,还是从 ASIC 切换到 CoT 流程,新思科技都可以通过定制化的服务帮助合作伙伴更快地完成芯片开发工作。

高性能计算追求差异化,需要灵活的PPAL满足

如同住户对房子有各种功能需求,也不能跳不出房子最基本的属性,在芯片行业这个基本属性就是PPA(Power,Performance,Area)。为了满足HPC用户普遍的实时性需求,还得加上低时延(Latency)。

HPC和数据中心最重要性能之一就是算力,这也是AI和自动驾驶汽车快速发展的基石。机构估算,训练ChatGPT5.0需要5万张英伟达的H100计算卡,按照一机8卡算,对应6250台服务器,这相当于一个中型数据中心的规模。

“算力就像是新时代的石油,推动着数智未来加速到来。但它不像石油资源取决于一个国家的诞生地,算力是一种可被生产出来的‘能源’。如果一个国家的算力基础设施足够好,算力就可以大量且低成本地生产出来。”姚尧做了一个形象的比喻,“如果一个国家能够拥有足够多的低成本的算力资源,就能充分解决药物研发、天气预报、疾病治疗等科学文明发展的关键问题,最终推动该国家乃至整个地球向更高文明等级发展,这是算力发展最重要的意义。这对于整个科技行业的从业者来说,是一个非常令人激动的时代,孕藏着巨大的机会。”

那如何生产出HPC和数据中心客户所需的高算力?

3DIC是高性能低功耗的最优解

过去几十年间,提高算力的主要方式是摩尔定律的演进。这种方式现在遇到了瓶颈,先进工艺不仅成本飙升而且技术难度指数级增长,而把芯片做大,良率也是不容忽视的挑战。

于是, 芯片行业转向了3DIC。形象理解3DIC, 就是以前的房子都是一层楼,要更大空间就需要增加房子的长度和宽度以增加面积(性能),而采用3DIC技术后,就可以从高度上增加房子的面积,也就是从2D到3D了。

“很早之前就有人提过2.5D的概念,但那时候摩尔定律一直在发展,业界没有很强的动力发展2.5D芯片。现在摩尔定律的发展越来越缓慢,大家更有动力发展3DIC。”新思科技的工程师解释道,“把大芯片做成几个小芯片,然后堆叠在一起,不仅性能和良率都能做得更高,还能降低功耗。”

3DIC是提升HPC和数据中心芯片PPA的完美选择,但是, 设计3D芯片并非易事,芯片架构要从2D升级到3D ,然而芯片开发者过去已经习惯了用自己熟悉的既定方法、工具和工作流来开发SoC,这对于难度和复杂度大幅增加的3DIC架构来说容易出错。

还有一个明显的差异,2D芯片设计完成后交给封装团队相对简单,但3D芯片对封装的要求更加严格,架构、设计、实现、IP创建/集成、封装团队都需要更紧密的协作。

目前, 各种单点工具只能解决复杂的3DIC设计中细枝末节的难题, 需要专为3DIC而生的工具。

新思科技3DIC Compiler正是为3DIC而生的统一芯片设计平台,为3D可视化、路径、探索、设计、实现、验证及签核提供了一体化的超高收敛性环境,全套的自动化功能可以降低设计的难度,减少迭代次数,缩短产品的上市时间。

其中的3D可视化,能够将复杂的线路更清晰的呈现,不仅能让开发者的设计更加直观,效率更高,设计优化也更好。

新思科技预计, 2026年约20%的芯片系统将采用多裸晶芯片系统或3DIC技术, 到2030年,这一比例将上升到40%。

借助3DIC Compiler,HPC芯片的PPA需求可以被满足,低延迟需求就需要靠高速接口IP来解决。

最新高速接口IP解决I/O瓶颈

在HPC和数据中心领域特别强调低延迟的理由非常简单,AI计算中数据搬移消耗的能耗远高于计算,并且数据传输的速度跟不上计算性能的提升,I/O已经成为了发展瓶颈,这也是PCIe和以太网在AI爆发之后会快速迭代的直接原因。

数据量爆炸,如何让高性能计算「突变」?

接口IP一直都是新思科技的优势产品,作为半导体IP领域的全球领导者,新思科技总是能超前地布局新产品的研发。

新思科技IP工程师分享:“标准快速变化的时代,市场只需要PCIe5.0的时候,我到底做一个PCIe5.0还是生态还未成熟的PCIe6.0?这时候 了解客户的需求还不够,还需要有行业远见。

在综合评估了市场的需求之后,新思科技率先在业界推出了PCIe6.0 IP产品。除了产品定义的难题,还需要把产品做得足够灵活才能适应未来HPC和数据中心市场的需求。

PCIe3.0的时代,做好产品客户会主动来买。 ”新思科技IP工程师进一步解释,“现在不一样了,客户应用多样化之后,速率也已经不是唯一的评判标准。我们能做的就是提供可配置的IP,充分满足客户不同的需求。”

与PCIe一样,以太网标准也在近几年加速迭代。最新一代的以太网标准将可以提供224G的数据速率,为1.6T以太网的发展奠定基础。

224G以太网的设计面临着巨大的挑战,由于数据中心内前面板可插拔模块的密度已经接近极限,只剩下有限的空间可插拔光学模块使用,设计224G以太网就需要有功耗等方面的独特考量。

新思科技率先推出了224G以太网PHY IP,可以满足不断增长的高带宽和低延迟要求,同时提供超过IEEE 802.3和OIF标准电气规范要求的信号完整性和抖动性能。

在兼顾性能和低时延的同时,新思科技的HPC和数据中心解决方案也提供端到端高能效设计,覆盖从架构到签核全过程的低功耗方案能够满足高性能计算和数据中心系统目标,基于新思科技独一无二的Platform Architect,从架构层面就能确定如何做功耗权衡,并加快设计进度。

新思科技可视化的3DIC Compiler、可配置的高速接口IP、覆盖全流程低功耗解决方案,能够满足HPC和数据中心芯片的PPAL和差异化需求。但 依旧面临着芯片计复杂度增加,工作量加大,对芯片工程师要求更高的挑战,AI将让这些问题迎刃而解。

用EDA+AI魔法「打败」复杂性难题

新思科技几年前就率先在业界开始了EDA+AI方面的探索,并在今年推出了业界首个AI驱动型全栈式EDA解决方案Synopsys.ai,包含了设计空间优化解决方案DSO.ai,验证空间优化解决方案VSO.ai,测试空间优化解决方案TSO.ai,模拟与制造优化解决方案。 简而言之,它是从设计到制造全流程的全套解决方案。

“HPC和数据中心的系统变得越来越复杂,参与设计的工程师越多,出错的概率就越大。”新思科技工程师分享了AI技术与EDA工具融合的价值,“通过数据的训练, 用AI去设计复杂的芯片效率更高,也能降低对人力的依赖, 这在芯片人才紧缺的大环境下,AI+EDA的价值尤为明显。”

目前,新思科技DSO.ai已经实现超过270次商业流片。

测试流程用AI的价值也非常明显。TSO.ai平均能够降低20%-30%的测试成本。

“如果能将一颗芯片的测试时间从10秒减少到5秒,占用测试机台的时间减少,成本随之减少。”该工程师解释。

从芯片生命周期出发,破除系统稳定性难题

系统的复杂度越高,稳定性就越容易出现问题。 想要破除稳定性的难题,最好的方式就是在芯片里装上多个传感器,就像是芯片房子里的“摄像头”

数据中心里有一个“未解之谜”——静默数据丢失 ,也就是一份数据在数次复制之后丢失了,查询系统日志也无法找到。这个问题的原因在业界一直没有一个被广泛可接受的解释。

给芯片装上传感器,对芯片生命周期管理,不仅有助于找到静默数据丢失的答案,还能提升数据中心从芯片到系统的稳定性。

任何的半导体器件都会出现一些随机的错误,这种随机的错误没办法重现,而有了芯片内部的传感器,有利于收集异常数据。

芯片生命周期管理的价值当然不限于此,传感器能够监控芯片的运行环境,更容易发现芯片的问题,也能够帮助下一代芯片的设计改进,提升复杂芯片和系统的稳定性。

以前只有少数公司能够高稳定性的HPC产品,如今,新思科技的芯片生命周期管理解决方案(Silicon Lifecycle Management, SLM)可以将芯片设计、测试验证、制造与部署的每一个阶段所产生的大量数据加以连接并整合到统一平台进行分析,优化包括芯片性能、速度、量产良率、品质管控以及上市时间等重要核心指标,从而帮助更多公司设计出性能更出色、稳定性更佳、具有差异化优势的芯片产品。

芯片市场的变化,给EDA公司带来了更多的挑战,特别是在HPC和数据中心这样对性能、延迟、稳定性要求更为苛刻的领域,想要解决越来越复杂的系统级挑战,只有从系统级出发,提供端到端的解决方案才能更好地应对日益复杂的设计挑战。

HPC的应用早已不再局限在少数应用领域,越来越多的HPC和数据中心的差异化需求之下,一旦硬件的能力跟上应用需求,HPC市场将在短时间内突变。 新思科技是让这场变革的最佳助攻 ,在充分了解客户需求,洞见市场的基础上,率先布局,提供全面的产品,着眼当下也面向未来。 雷峰网雷峰网 (公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

随意打赏

提交建议
微信扫一扫,分享给好友吧。