赋能大数据与AI应用 青云QingCloud EHPC助企业开拓新场景
去年底,2021中国高性能计算机(HPC)性能TOP100榜单正式发布,除了“谁是最快超算机器的比拼”以外,超算 商业 化也成了这次榜单发布引发的一个热门话题。这已是该榜单的第20次发布。在人们印象中“高高在上”的超算,如今真的已经“飞入寻常百姓家”,成为各行各业迫切需要的算力“超级大脑”。
超算市场正在进一步细分,尖端超算、通用超算、行业超算的划分能够更有针对性地满足不同行业、不同细分应用市场的算力需求。除了人们熟知的国家超算中心以外,由各地政府扶持、各种社会资本参与加持的超算中心也如雨后春笋般不断涌现出来。同时,随着云服务的快速普及,“超算云”也成了新的提供超级算力的途径和方式。
就在超算商业化这一话题还在持续发酵之中,青云QingCloudEHPC以更加简单、快捷的方式获取云上超算服务“从理想照进了现实”。
算力爆发的时代
实际上,能否通过云服务的方式提供超算算力,也曾经引发过争论。另外,大型超算中心在完成重大科研项目攻关任务的同时,也希望将更多闲置算力提供给商业用途,以充分发挥超算算力的价值,但究竟哪种途径、方式或商业模式更适合,也一直在摸索之中。但说到底,将超算算力提供给千行百业,从而赋能千行百业的数字化转型已成为当今最迫切的需求。
超算走下神坛,是大势所趋。现在看来,超算云是一种比较适合的释放超算算力价值的渠道。
高性能计算诞生之初,其目的是用大量服务器并行地对某一个任务执行运算,以解决工程和科学上的问题。虽然其用途很多,但最核心的还是用来模拟世界万物。人们熟知的通过对卫星图像、遥感数据、气象数据的计算和分析来模拟地球、海洋和气侯,或者进行基因测序、药物研发。这些都曾经是高性能计算的主战场。
但是上述这些应用场景毕竟与普通人的生活距离较远,这也在某种程度上造成了高性能计算“曲高和寡”的感觉。随着技术的成熟、应用场景的拓展,高性能计算覆盖的范围也在不断扩大。比如,让人心跳加速的F1赛车运动,红牛车队在赛前会根据下一场比赛赛道的特定环境做一个模拟,包括使用虚拟风洞来优化空气动力学,或模拟电源散热系统,让赛车能发挥其最大功率,还可以模拟碰撞,从而优化车身结构。利用超算平台的算力,红牛车队这种针对性的模拟和优化能够在7天内完成,从而保证在每一场比赛中,其赛车手都能拥有最大优势。
不仅如此,现在 金融 行业的防欺诈,甚至零售行业为客户行为画像等,都可能会用到超算。以更 经济 实惠的价格,以便捷快速的方式,为各行各业提供超算算力成了各计算厂商努力的目标,这其中云服务商也是一股不容忽视的力量。
开拓新业务场景
不可否认,云计算的快速普及,为超算进入千行百业打开了新的大门。那么,云服务商究竟应该从哪里入手呢?
青云QingCloud云平台&服务部高级总监陈海泉指出,青云在高性能计算领域重点关注的新场景有两个:一是高性能计算业务与大数据、人工智能的融合;二是高性能计算平台与云计算的融合。
先来看大数据与人工智能对高性能计算的需求。首先,高性能计算与尖端科研是密不可分的。其次,大数据驱动着存储与算力的深度融合。以前,建超算中心普遍以算力为主导,存储瓶颈日益突出。随着数据量和来源越来越多,数据类型越来越复杂,海量的数据需要更高效的处理和分析。这一改变驱动着数据中心和算力中心相互融合。最后,人工智能应用的爆发刺激了对算力的需求。无论是模型训练还是推理计算,都需要足够的算力支撑,这必然用到大量GPU节点。国际人工智能算力性能排行榜——AIPerf500从2020年开始已连续两年公布。今年的AIPerf500与2021中国HPC TOP100榜单同时公布,显示了人们对人工智能算力的关注程度。举例来说,在金融领域,大数据、人工智能与超算的结合更加紧密,通过对各种层面和维度的数据进行分析,借助深度学习技术训练出模型,应用于风控,可将坏账率降低35%。
大数据、人工智能与超算的融合是必由之路,但这条道路也并非一帆风顺。陈海泉将大数据对超算提出的挑战归纳为两个方面:第一,存储容量比以前大得多;第二,不同类型的业务对存储的要求不尽相同。因此,超算中心需要对不同的业务提供合适的存储类型。另外,不断增加的人工智能应用,要求超算中心有充足的GPU资源,并且还要提供对应的软件框架,比如TensorFlow;而这些应用往往还希望用云原生的方式进行部署和运行,因此对以Slurm调度器为主的超算中心也是一个很大的挑战。
青云QingCloud EHPC可以全面支持各种新的业务场景。对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,从而完成一个闭环的业务场景。对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
在大数据业务场景下,QingCloud云平台提供的对象存储容量达245PB,与计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够确保大数据计算的超高性能。有了云平台的多种存储服务,用户就可以按照自己的业务来选择合适的存储类型,包括冷、热类型的对象存储,全闪并行文件存储或者块存储等。
另外,有了虚拟化技术的加持,青云可以快速为不同业务构建所需的运行环境,并随时可以切换MPI、TensorFlow或者MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
云是加分项和变革因素
传统超算中心有自己的一套固有模式,对于集中资源完成重大科研攻关项目十分有效。但是要想满足数量众多、需求各异,甚至有些细碎的商业计算需求,传统超算中心必须做出必要的改变。
传统超算中心的一个痛点便是使用方式。传统超算中心的用户,在使用之初,需要先提交一个申请,经过人工审批,还需要自己安装VPN客户端,连接超算中心提供的登录节点,才能开始使用超算资源。
但是,超算中心的登录节点往往是很多用户共享的,主要存在两个问题:一是超算中心为了保证自身安全,不提供Root权限,这给安装软件带来了一些麻烦;二是Linux系统每隔一段时间就可能暴露出一些系统漏洞,如果被别有用心的人利用并得到Root权限,就可以窃取平台上其他用户的数据。“不方便和不安全这两个问题,需要用云平台与高性能计算相结合来解决。”陈海泉表示,青云QingCloud EHPC可以有效消除传统超算中心的使用及运营痛点。青云云平台带来的一个最大的改变是,将传统的审批制度变成用户自服务的形式,用户随时可以在云平台上注册账号,充值购买所需要的计算资源。
QingCloud EHPC可以提供超算的自服务,是因为用云计算技术保证了平台的安全,主要表现在以下三个方面:第一,计算、网络与存储的租户在物理和逻辑上实现了强隔离;第二,青云云平台的管理节点与计算节点分离,租户可以使用完全独享的登录节点;第三,除了传统的VPN接入,青云还提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。
在确保安全的前提下,QingCloud EHPC的使用也更加灵活,提供了两种不同类型的超算集群:偏传统的共享型超算集群,以及一种新的独享EHPC集群。另外,QingCloud EHPC还集成了工业仿真软件,能提供一站式的使用体验。
总结来说,QingCloud EHPC可以完美地支持大数据和人工智能融合的超算业务,并且以云服务的方式提供,让超算资源可以更加便捷地交付给用户。未来,青云希望促成更多的超算中心加入分布式云节点,共建一个资源共享的算力网络。