青云QingCloud EHPC:将云计算融入超算应用场景

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

高性能计算(HPC)的可扩展性和普遍性正在深入日常生活。现阶段,超级计算已经推动了科学探索的发展,并能够帮助解决气候变化和慢性病治疗等关键问题。

而在具体应用方面,高性能计算与产业的结合越发紧密。从 金融 到医疗,越来越多的数据分析,需要高性能计算的强力支撑以获得更快更稳定的解决方案。

前不久青云 科技 全新发布的QingCloud EHPC产品,基于青云公有云IaaS平台、PaaS平台的云基础设施,为用户主要提供公有云服务,为有需求的用户提供专属云和混合云等多种形态的产品。

青云科技云平台&服务部高级总监陈海泉表示,青云的超算云平台可以完美地支持大数据和人工智能融合的超算业务,并且以云服务的方式提供,让超算资源更便捷地交付给用户。

提供多场景适配

据QingCloud EHPC 产品经理苗慧介绍,QingCloud EHPC高性能计算平台应对的是生命科学、CAE仿真、海洋气象等相关领域的高性能计算需求,提供丰富多样的使用模式,适配多种应用场景。通过统一管理的平台,使不同领域的工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。

QingCloud EHPC 提供云上超算SaaS化服务,方便快捷让作业运行起来。通过青云的弹性公网IP、公网带宽,将数据进行快速的上传、下载,与本地数据同步。

从客户群来看,QingCloud EHPC覆盖青云的终端用户,从云上计算到云下结果产出的一个全流程计算服务平台,青云的用户可以在几分钟内,将云上工作快速运行起来,快速完成计算作业。

从服务构架来看,QingCloud EHPC的服务架构主要分为三层,分别是资源层、管理层和用户端。

资源层主要包含青云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台以及可视化服务平台。

管理层主要提供SaaS化的服务,从开始作业到作业运行结束,系统将自动进行折扣信息计算、计量计费和作业监控服务,能够保证用户进来之后,对团队项目、团队项目权限等相应的管理。

用户端是用户控制台,用户可以进行创建集群、管理集群、弹性伸缩、作业提交、作业编排、作业性能分析。通过用户控制台,用户可以很方便地操作作业。

从产品的构架来看,QingCloud EHPC能够从资源层上提供高效的资源,从管理层上提供方便快捷的管理服务,从用户端上提供交互使用体验优秀的用户控制台。

同时,QingCloud EHPC采用弹性伸缩的计算节点:在业务运行高峰期,青云可以将计算节点的数量进行扩容,或将计算节点的配置进行提高;在低峰期,可以根据作业量进行缩容。这样的安排将会大大减少资源投入的费用,提高资源利用效率,为用户提供更加友好的解决方案。

多技术融合 应对新挑战

苗慧透露,QingCloud EHPC 有丰富的应用软件。青云研究传统的超算中心和现在的云服务厂商后,通过青云的技术,将大规模开源软件及商用软件放到共享软件目录上,用户可以达到即来即用的情况,同时可以辅助用户安装与使用。青云提供的300多款软件中,既覆盖了像常用的MPI库、数学软件等资源,也覆盖了分子生物学、新能源、新材料、大气海洋环境、地球、物理等多行业领域。

事实上,从QingCloud EHPC的产品特性,可以看出高性能计算与云计算的融合趋势。

高性能计算的用途广泛,最核心的是用来模拟世界万物。宏观上,可以通过卫星图像、遥感数据、气象数据利用高性能计算来模拟地球、海洋和气侯;微观上,能模拟分子原子来了解生命的原理,使药物的研发更快速、更精确。

在此背景下,作为前沿科技的高性能计算开始走出高校,进入行业,实现了更多的场景应用落地。与此同时,受益于技术的演进,高性能计算与大数据人工智能和云计算的融合越发明显。

在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发。在金融领域,大数据和人工智能与超算相结合,对各种层面和维度的数据进行分析,通过深度学习技术训练出模型,应用在风控上,可以让坏账率降低35%。

针对大数据、人工智能与超算融合的场景,对超算提出了一定的挑战。主要体现在,存储容量比以前大很多,不同类型的业务对存储的要求也不一样。因此超算中心需要对不同的业务提供合适的存储类型。

早先的超算中心围绕计算资源建设,容量有限、存储类型单一,难以支撑大数据的场景。而新一代的超算中心有些已经配备了强大的容量,可以承接仿真建模类大数据的业务,但由于超算中心本身提供的服务比较单一,也无法承载大数据业务需求。

同时,随着人工智能应用的爆发,对超算中心又提出了新的需求:充足的GPU资源以及相应的软件框架。这些业务往往希望用云原生的方式来部署和运行。因此,这对以 Slurm 调度器为主的超算中心也是一个很大的挑战。

因此,青云希望将适应了人工智能、大数据和超算的基础设施,在适用不同业务的同时能够做到尽量复用。这也是此次青云推出EHPC超算云—— QingCloud EHPC的一个初衷,可以全面地支持各种新的业务场景。

解决行业痛点

据了解,此次推出的高性能计算平台,对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台提供的对象存储容量达 245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。

对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。

此外,QingCloud EHPC还解决了超算中心的另一个痛点——使用方式。传统的超算中心用户,在使用时,需要提交申请,并且有人工审批的环节,用户得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。

超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供 root 权限,给安装软件带来一些麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取平台上其他用户的数据。

“所以,不方便和不安全这两个问题,需要用云平台与高性能计算结合解决。”陈海泉表示,青云云平台带来的一个最大的变化是,把传统的审批制度变成用户自服务的形式,用户随时可以自己到云平台注册账号,并且充值购买他需要的计算资源。

青云保障安全的同时,还能让整个超算使用很灵活,陈海泉介绍到,青云提供了两种不同类型的超算集群:偏传统的共享型超算集群和独享EHPC集群。

“青云有一个愿景,希望跟超算中心合作共建算力共享的算力网络,为超算中心私有化部署的同时,以云平台连接全网算力提供外部资源支撑突发业务,避免排队。当超算中心自己的资源空置时,也可以对外出售算力增加运营收入。”陈海泉说道。

随意打赏

提交建议
微信扫一扫,分享给好友吧。