IBM用最新芯片,打造了一个大型机
IBM 的最新大型机以平台传统的关键任务工作负载的安全性和可靠性属性为基础,添加了 AI 来支持大型语言模型 (LLM)、助手和代理。
z17 系列引入了改进的 Telum II 处理器和 Spyre AI 加速器卡,这两者都是在去年帕洛阿尔托举行的Hot Chips 会议上讨论过的,据称其 AI 性能比 z16 提高了 7.5 倍。
IBM 声称,虽然 Telum II 提供了改进的 AI 推理来针对交易运行欺诈检测检查(就像z16 中引入的那样),但 Spyre 卡提供了一种扩展 AI 处理的方法,以支持生成 AI 和 LLM,并使用多种模型来提高准确性并减少误报。
IBM 院士兼 IBM Z 架构师 Elpida Tzortzatos 在谈到蓝色巨人为这款最新大型计算机开发的硬件增强功能时表示:“如果将数据视为新的燃料,那么基础设施就是推动企业 AI 之旅走向成功的引擎。”
该公司表示,他们花了很多时间与客户讨论他们希望在大型机中看到什么,这为 z17 的开发提供了参考。客户显然告诉他们要更新他们的应用程序并使大型机更加人工智能驱动。
但这并不是像其他一些公司那样,将生成式人工智能简单地投入到其中。蓝色巨人声称已经仔细考虑过这个问题。
Tzortzatos 表示:“GenAI 对我们的客户来说非常重要,但也不是唯一的 AI 工具。尽管最近有很多关于 GenAI 的讨论,但预测性 AI 仍将在企业中发挥关键作用。”
“我们将继续非常非常好地服务于这些用例,但 GenAI 为新的用例打开了大门,例如拥有助手并能够总结文档,能够为开发人员提供支持,让副驾驶能够自动完成代码等等。”
这些助手包括该公司的watsonx Code Assistant for Z 和 watsonx Assistant for Z 等。
Tzortzatos 声称,该公司看到的一个新趋势是将预测人工智能的优势与大型语言和代码模型的优势结合起来,以提取新特征或新见解,并从这些人工智能模型中获得更好、更准确的结果。
她举了一个保险的例子,保险公司从 DB2 数据库中提取与索赔相关的结构化信息,然后从非结构化文本中提取关键见解(例如索赔原因或索赔紧急程度),并将其输入预测 AI 模型以获得更好、更准确的结果。
根据 Hot Chips 的详细介绍,z17 中的 Telum II 处理器与上一代一样是八核芯片,但运行速度更高,为 5.5 GHz。Telum II 的缓存大小也增加了 40%,并增加了另一项新功能——片上 IO 加速器或数据处理单元 (DPU),旨在卸载 Spyre AI Accelerator 卡在处理较新的 AI 模型时需要处理的大量数据。
Tzortzatos 解释说:“当谈到大型语言模型和 GenAI 时,我们看到模型复杂性和模型尺寸增加了超过一百倍,这对 AI 计算提出了更高的要求。”
这些 Spyre AI 加速器卡可插入 PCIe 插槽,每个卡最多有 32 个核心,据说与 Telum II 芯片本身的 AI 加速器架构类似。IBM 表示,z17 可以在单个系统中拥有最多 48 张卡。
蓝色巨人还在准备 z/OS 3.2,这是其为 IBM Z 系统开发的下一个主要操作系统版本,计划于今年第三季度发布。这将为整个系统提供对硬件加速 AI 功能的支持,并使用运营 AI 实现系统管理功能。
IBM 表示,新平台将增加对现代数据访问方法、NoSQL 数据库和混合云数据处理的支持,以使 AI 能够利用更广泛的企业数据来应用预测性业务洞察。
IBM 推出新款大型机正值这种高价位产品的艰难时期,特朗普政府的国际贸易政策动摇了 商业 信心。传统上,随着旧系统客户升级,新大型机的推出将为蓝色巨人带来收入激增,但今年的销售可能会很困难。
然而,Gartner 基础设施和运营集团执行副总裁 Mike Chuba 表示,公司已经充分了解客户的需求。
Chuba 向The Register表示:“如果你回顾一下最近几代大型机的发布会,并继续回顾这一代,你会发现,IBM 在涉及大型大型机客户的研发过程中投入了更多时间。”
“IBM 的研发工作现在专注于新硬件如何直接解决客户面临的挑战。他们在 z16 上引入的专用加速器和这一代的涡轮增压版 2 直接解决了交易时欺诈检测等挑战,从而专注于人工智能。”
IBM 的的新芯片
去年,IBM 为其著名的大型机系统推出了一款更强大的处理器,承诺增强用于推理的片上 AI 加速,并集成数据处理单元 (DPU) 以增强 IO 处理能力。
IBM还为其提供了一个单独的 AI 加速器,旨在支持更大规模的推理。
据蓝色巨人称, Telum II 处理器在帕洛阿尔托举行的Hot Chips 2024大会上发布,预计将为大型机带来显著的性能提升。该公司还预览了 Spyre AI Accelerator,并表示预计这两款芯片将于 2025 年上半年与下一代 IBM Z 系统一起推出。
如果 IBM 的说法可信的话,那么全球大约 70% 的交易都是通过其大型机进行的,而 IBM 表示,它在 Hot Chips 上展示的开发成果将使其能够将生成性 AI 引入这些关键任务工作负载。
Telum II 和其前代产品一样,是一款八核芯片,但在新芯片中,这些芯片的时钟速度更高,为 5.5GHz。有十个 36 MB 二级缓存;每个内核一个,DPU 一个,第十个作为整体芯片缓存。IBM 表示,随着虚拟 L3 和虚拟 L4 分别增长到 360 MB 和 2.88 GB,这意味着缓存大小增加了 40%。
首款 Telum 处理器于 2022 年推出时为 z16 带来了内置 AI 推理功能。它能够在处理 金融 交易时对其进行实时欺诈检测检查。
蓝色巨人表示,它已显著增强 Telum II 处理器上的 AI 加速器功能,达到每秒 24 万亿次运算 (TOPS)。但正如The Register之前所解释的那样,TOPS 可能是一个误导性指标。虽然增加了对 INT8 作为数据类型的支持,但 Telum II 本身的设计旨在使模型运行时能够与最苛刻的企业工作负载并行运行。
添加片上 DPU是为了帮助满足不断增长的工作负载需求,特别是着眼于未来的 AI 工作负载和即将推出的 Z 系统 Spyre 加速器。
据 Armonk 公司介绍,每个 DPU 包括四个处理集群,每个集群有八个可编程微控制器和一个管理这些处理集群的 IO 加速器,以及两个 IO 抽屉域的 IO 子系统。DPU 还具有单独的 L1 缓存和请求管理器来跟踪未完成的请求。
DPU 位于主处理器结构和 PCIe 结构之间。将其直接连接到结构的目的是大大减少数据传输的开销,同时提高吞吐量和功率效率。
IBM 表示,作为最高配置,未来的 Z 系统可能拥有多达 32 个 Telum II 处理器和 12 个 IO 笼,每个笼子最多有 16 个 PCIe 插槽,使系统总共支持多达 192 个 PCIe 卡,大大扩展了 IO 容量。
Spyre 加速器将包含 32 个核心,其架构与集成在 Telum II 芯片中的 AI 加速器类似。IBM Z 可以配置多个 Spyre 加速器,通过 PCIe 安装,以便根据需要扩展 AI 加速。例如,八张卡的集群将为单个 IBM Z 系统添加 256 个加速器核心。
Telum II 和 Spyre Accelerator 均旨在支持 IBM 所称的集成 AI,即使用多个 AI 模型来提高与单个模型相比的预测性能和准确性。
蓝色巨人 IBM Z 和 LinuxONE 产品管理副总裁 Tina Tarquinio 在评论中表示:“Telum II 处理器和 Spyre 加速器旨在提供高性能、安全且更节能的企业计算解决方案。”
她补充道:“经过多年的开发,这些创新将被引入我们的下一代 IBM Z 平台,以便客户可以大规模利用 LLM 和生成式 AI。”
蓝色巨人希望超越推理,在其大型机上进行微调,甚至可能训练模型。该公司表示,这将使银行和其他希望将数据安全保存在自己场所的企业等客户能够完全在组织内部训练和部署模型。
Telum II 和 Spyre Accelerator 都将由三星采用 5 nm 工艺节点为 IBM 生产。
【来源: 半导体行业观察 】