IBM Spectrum LSF助力顶级大学,释放高性能计算之美
南京,龙盘虎踞,紫金之巅。
作为中国三大科研中心之一,这里云集了大批的科研院所。仅以高校为例,南京拥有普通高等学校54所,在校大学生超过70万人,每万人在校大学生数量超过1100人,位列全国第一。
数值模拟、理论分析和科学实验鼎足而立,已成为当代科学研究的三大支柱。其中,数值模拟极大地依赖于高性能计算。随着国内高校承担的科研任务越来越多,复杂运算的需求越来越强,过去只用于少数科研机构的高性能系统,也成为众多院校必备的“基础设施”。
2009年,南京大学建设了一套高性能系统,用于大气、地球科学、天文、数学、物理、化工、生物等对计算要求较高的学科。
该系统峰值运算性能每秒34万亿次,位列当时全国高校第一名,在全国高性能计算机TOP100中也高居第七位,极大地支援了南京大学各个学科的应用需求。
然而随着时间的推移,在越来越多作业更高的要求面前,原有的高性能服务器集群渐渐地显得步履蹒跚起来,已经无法满足校内的日常使用。
2015年,南京大学高性能计算中心的扩建再次提上日程。
软硬搭配计算不累
多少年来,高性能系统的建设一般通过将大批的高性能x86服务器进行集群,并与高速网连接,系统的计算性能就能够得到突飞猛进的提升。
在原先一期的基础上,南京大学高性能计算中心进行了全方位的提升:集群的高性能服务器达到了900多台,系统规模从之前的402个节点升级到910个,存储容量也从早先的128TB的SAN加上54TB并行存储,提升到2PB的高性能存储加上超过1.2PB的分布式存储。
截至当前,南京大学高性能计算中心改造升级项目已经顺风顺水地结束,并正式投入运营。与前期相比,二期系统的峰值运算能够达到873.6万亿次,相当于一期的25倍之多。
目前,南京大学高性能计算中心在硬件配置上达到了国内领先、国际一流的水准,极大地支援了校内各个院系的科学研究。
说到这里,故事看似已经到了尾声。其实,以上只是表面,正式的篇章才刚刚开始。
很多人不知道,在南京大学高性能计算中心新的系统后台,一股来自软件的力量发挥着无可替代的作用,这就是IBM Spectrum LSF,它的主要作用是进行硬件计算资源的统一调度和管理。
(注:在南京大学高性能计算中心的扩建中,IBM不止提供了管理软件,还提供了高性能并行存储。)
简单说吧!当我们的系统里总共只有少量服务器和用户的时候,存储面临的压力并不大,各种用户诉求基本可以得到保障。可是在一套高性能计算系统中,7×24小时不间断只是最基本的要求,它所面临的任务很繁重,对于存储系统会带来非常大的压力。
我们知道,南京大学的集群中拥有多达900多台服务器,同时可能有几百位科研工作者在使用,几千个作业运行在高性能系统上,读写操作的要求频繁异常。试想一下,倘若未能对队列中的作业进行有效的调度,这套冠绝国内的高性能系统的威力又能发挥出几成?
南京大学高性能计算中心当然不会犯这样的错误。原因是在学校前一期的系统里就采用了这套软件,并且取得了非常良好的效应。
事实上,倘若不是IBM Spectrum LSF长期以来的居中调度,以及对旧有系统潜力的深度挖掘,南京大学各个学科的高性能计算需求早就爆表了,根本不可能撑到2015年。因此,当学校正式启动高性能计算中心的扩建后,在第一时间里IBM Spectrum LSF的需求就被毫不犹豫地确认下来。
“我喜欢你的过去,更期待你的未来。”或许说的就是这种心境吧?只是这一次,无干爱情。
调度资源统一管理
IBM Spectrum LSF产品是一套业内领先的系统管理和部署集成软件,拥有60%世界500强的用户,用户行业遍及各个行业,市场占有率在全球和国内均为第一。
该产品家族实现了软硬件资源的共享调度,能够将所有的资源有效地组合到一起,并根据事先定义的调度策略进行统一管理。
高性能计算的本质,就是在最大程度上提高软硬件资源的利用率,IBM Spectrum LSF极其高效地解决了这个所有高性能计算系统面临的核心难题,这也就难怪它能得到包括世界500强企业在内的各种机构的青睐。
以南京大学为例。对于人手紧张的计算中心来说,保持近千台服务器7×24小时不间断的运行,在过去几乎是“不可能完成的任务”,即便是重金配备外部的第三方服务也很难做到。
IBM Spectrum LSF却可以做到计算资源的统一管理。什么意思呢?就是通过LSF驻留程序将硬件资源的运行情况收集起来,在平台层面实现统一监控和管理。从用户的角度来看,他们看到的不再是大批的服务器,而是“一台”机器,管理难度和相应的工作量得以大大降低。
在此基础上,根据不同的调度策略和不同的排队机制,该产品能够做到在同样的时间里,完成更多的作业任务。对要求苛刻的分布式HPC环境来说,它能够提供策略驱动的全面的智能调度功能集,支持用户全面利用计算资源,并确保最优的应用程序性能。
从管理和调度上来说,南京大学高性能计算中心还希望找寻某种平衡——譬如,每个用户都希望自己的资源拥有最高的优先度——问题是这根本不可能,但计算中心必须找出办法,找出为何有些资源跑得慢和排队的原因,而IBM Spectrum LSF同样能够提供帮助。
IBM Spectrum LSF提供各种异构环境的支持,包括SMP、集群、单机构成的混合机构平台,支持小机、x86、胖节点、图形工作站等在内的统一管理和调度,这意味着南京大学高性能计算中心以往的各种设备不必功成身退,它们完全可以在新的架构体系中焕发又一春。
此外,IBM Spectrum LSF的扩展性可说得上瀚如烟海:单机群支持5000节点,最高100000内核扩展和50000同时等待在线作业。从这个角度而言,该系统为南京大学高性能中心未来的升级留下了广阔的空间。
软件定义驱动未来
针对南京大学的诸多要求,IBM为该校高性能计算中心提供了整套的软件定义解决方案,主要是存储和管理两个方面。
在存储方面,IBM提供了一体化的基于IBM Spectrum Scale的ESS高性能存储,它基于SDS,实现容量和性能独立按需扩展,避免容量或性能浪费,也可以独立扩展存储服务接口类型。
IBM Spectrum Scale是存储虚拟化软件,与硬件解耦,用户完全可以根据自身的应用需求来选择硬件:偏重灵活性,可以采用通用硬件;侧重性能,则可以选择配置较高的硬件。
通过软RAID方式对软硬件进行结合,带来的好处是即便部分磁盘损坏,也不会影响读写性能,而且能够分钟级实现故障硬盘的恢复。
试想一下,假如南京大学的900多台服务器中,100多台出现故障,由于背后IBM Spectrum LSF的支撑,系统能够继续运转;反之,假如所有的服务器都是好的,但是存储文件系统出现故障,那系统也无法继续运行。
在管理软件方面,IBM提供了IBM Spectrum LSF,这套产品的最新版本号是10,目前运行在全球绝大多数的超算中心,包括研发机构、航空、制造和生产企业等。
IBM Spectrum LSF是实现将几百台机器当做一台进行管理的核心,它还能将出现故障的节点任务转移到其他的节点上去,通过良好的调度增加高性能计算的效率。
IBM Spectrum Scale支持多种部署选项和现有块存储、存储服务器(Elastic Storage Server,ESS)硬件节点集成,提供全局命名空间和统一访问接口。
从9升级到10,看似只是版本的日常更新,实际上面对同样一套硬件系统,IBM Spectrum LSF 10的性能比老版本提升了5倍之多,比目前的开源版本更是快了150倍——换言之,IBM Spectrum LSF一小时内完成的作业调度,开源软件需要150个小时才能完成。
与其他领域相比,大学的超算可能并不算非常复杂,但是从应用的角度而言,却可能超越很多对超算要求很高的行业。
以南京大学为例,大批国家一级理工学科的项目都跑在高性能计算中心,同时支持的应用和项目可能多达数百种,跨越多个学科,因此对超算系统的平台成熟度,南京大学有着很高的要求。
IBM的相关方案拥有行业内最深厚的应用基础,在包括科研在内的诸多行业里得到了最广泛的应用,本身的技术领先性和成熟度毋庸置疑。
针对用户的各种趋势要求,IBM总会在第一时间做好准备,譬如围绕最新的人工智能和认知计算,IBM Spectrum LSF产品家族均进行了相应的预制——这也是它一百多年基业常青的重要原因之一。
在IBM创新产品和解决方案的支持下,向着“创建世界一流大学的责任与使命”,南京大学继续前进。