6159个A100,每秒4百亿亿浮点运算,全球最快AI超算Perlmutter上线
公众号/机器之心(ID:almosthuman2014)
机器之心报道
编辑:小舟、力元
Perlmutter 将推动粒子物理学、材料科学、生物能源、天体物理学、气候科学等领域的发展。
近日,Perlmutter 超级计算机在美国国家能源研究科学计算中心 (NERSC) 正式投入使用,将为 7000 多名研究人员提供近 4 百亿亿次浮点运算的 AI 性能,是人工智能领域使用 16 位和 32 位混合精度数学处理工作负载的最快超级计算机。
Perlmutter 中含有 6,159 个 NVIDIA A100 Tensor Core GPU,是世界上最大的 A100 动力系统,20 余个应用将成为首批搭载 Perlmutter 的项目 。这些项目的目标是推进天体物理学、气候科学等方面的科学发展。
宇宙的 3D 地图
Perlmutter 将完成的任务包括组装迄今为止最大的宇宙 3D 地图。它将处理来自暗能量光谱仪(一种可以在一次曝光中捕获多达 5000 个星系的宇宙相机)的数据。
研究人员需要 Perlmutter 中的 GPU 在一个晚上捕获数十次曝光。在之前的系统上,准备一年的数据以供发布可能需要数周或数月的时间,但 Perlmutter 将能够在短短几天内完成任务。
NERSC 的数据架构师 Rollin Thomas 说:「在准备工作中,Perlmutter 中的 GPU 获得了 20 倍的加速,我们感到非常满意。」他目前正在帮助研究人员为 Perlmutter 准备代码。
DESI 的地图旨在揭示暗能量的奥秘,这是一种宇宙加速膨胀背后的神秘物理学。暗能量主要是通过 2011 年诺贝尔奖获得者 Saul Perlmutter 的工作发现的,他将帮助以他的名字命名的超级计算机 Perlmutter 完成任务。
融合 AI 与高性能计算的 Perlmutter
Perlmutter 作为一台新型超级计算机,融合了 AI 与高性能计算。Perlmutter 上运行的项目将推动多个领域的发展,例如材料科学方面的工作任务旨在发现原子间的相互作用,为电池和生物燃料领域指明新的方向。
传统的超级计算机几乎无法处理几纳秒内生成几个原子模拟所需的数学运算,即无法使用 Quantum Espresso 等程序。但通过将高度精确的模拟与机器学习相结合,科学家们可以在更长的时间内研究更多的原子。正如 NERSC 应用性能专家 Brandon Cook 所说:「过去不可能对电池接口等大型系统进行完全原子模拟,但现在科学家们计划使用 Perlmutter 来做到这一点。」他目前正在帮助研究人员启动此类项目。
这也是英伟达 A100 中 Tensor Core 发挥其独特作用的地方。它们加速了用于模拟的双精度浮点数学运算和深度学习所需的混合精度计算。
Perlmutter 基于包含 Slingshot 互连的 HPE Cray Shasta 平台,这是一个具有 GPU 加速节点和 CPU-only 节点的异构系统。该系统分两个阶段进行安装,第一阶段包括系统的 GPU 加速节点和暂存文件系统(scratch file system)。第二阶段将在今年年晚些时候添加 CPU-only 节点。
Perlmutter 的 A100 GPU 采用 Nvidia Tensor Core 技术和直接液体冷却。值得一提的是,Perlmutter 是 NERSC 第一台具有全闪存暂存文件系统 (35PB 容量) 的超级计算机。这个由 Cray 开发的 Luster 文件系统将以超过 5 TB / 秒的速度移动数据。
Perlmutter 第一阶段的机柜及其直接液冷系统。
Perlmutter 安装的第一阶段由 12 个 GPU 加速机柜组成,可容纳超过 1500 个节点。今年晚些时候的第二阶段将增加 12 个 CPU 机柜以及 3000 余个节点。第一阶段的每个 GPU 加速节点都有 4 个基于 NVIDIA Ampere GPU 架构的 A100 Tensor Core GPU 以及 256GB 的内存,此外还有一个 AMD「Milan」CPU。第一阶段的系统还涵盖了非计算节点 (NCN)、20 个用户访问节点(NCN-UAN – 登录节点)和服务节点。据 NERSC 称,一些 NCN-UAN 可用于使用 Kubernetes 部署容器化用户环境。
第二阶段的每个 CPU 节点都将有两个 AMD Milan CPU 和 512GB 的内存。第二阶段的系统还增加了 20 个登录节点和 4 个大内存节点。
除了 CCE、GNU、LLVM 编译器外,该编程环境还将采用 NVDIA HPC SDK,以支持多种并行编程模型,例如 MPI、OpenMP、CUDA、OpenACC(用于 C、C++ 和 Fortran 代码)。
此外,面向 GPU 数据科学的开源平台 RAPIDS 将加速 NERSC 的 Python 开发团队的工作,它在一个 NERSC 的 Cori 超级计算机上的网络流量分析项目中证明了它的价值,速度比之前在 CPU 上快了近 600 倍。
NERSC 数据和分析服务组的代理负责人 Wahid Bhimji 表示:「人工智能科学是美国能源部的一个正在增长的领域,对概念的验证正在逐渐转换为落地生产(粒子物理学、材料科学、生物能源等领域)。人们正在探索越来越大的神经网络模型,并且需要更强大的资源,因此 Perlmutter 及其 A100 GPU、全闪存文件系统、流数据功能非常适合用来满足 AI 的需求」。
Perlmutter 的其他工作预计将专注于材料科学,比如研究能导向更好的电池和生物燃料的原子间相互作用。
参考链接:
6,000 GPUs: NERSC Says Perlmutter Delivers 4 Exaflops, Claims Top Spot in AI Supercomputing
https://blogs.nvidia.com/blog/2021/05/27/nersc-perlmutter-ai-supercomputer/