云计算正在定义硬件

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

2020 Techo Park开发者大会“下一代软硬一体化的云计算基础设施”分论坛上,腾讯云重磅发布星星海首款自研GPU服务器和星星海新一代自研双路服务器,后者也是国内首款搭载即将发布的第三代英特尔至强可扩展处理器(Ice Lake)的双路服务器。

近年来,腾讯云、阿里云等新进IT厂商的身影频繁的出现在政企市场中,政府、企业第一时间想到的是直接购买云服务,而并非再去购买服务器,搭建系统。

而这一变化,也让云计算成为一个创新之地。

云已经超过IT基础设施的范畴

 “随着云计算承载的业务规模越来越大,传统服务器难以完全满足云计算数据中心场景下对超大规模、需求多样、高性价比、安全可靠以及软硬件一体化等方面的要求。”

说这句话的是腾讯云服务器与供应链管理部总经理刘裕勋,实际上,随着云计算产业的发展,从技术的角度说,云计算已经超过IT基础设施的范畴,正向上定义软件应用服务,向下定义芯片、服务器等IT硬件。

在刘裕勋看来,随着云原生理念的不断推进,云基础架构的演进过程中会呈现出三个特点:高复杂度、高性价比、安全性。

云计算正在定义硬件

当海量业务承载在云基础架构设施的时候,业务的多样性,对于软硬件一体化的系统实际上提出了更高的要求。面临这样的复杂度,云厂商必须要联合芯片产商、整机厂商进行深度的定制化,以此来解决各种复杂场景下的兼容性问题。

而高性价比,我们以英特尔的CPU为例,CPU的另外一个名字叫通用计算。而这也就代表着,搭载通用CPU的服务器具有很高的通用性,但是实际的应用中,势必会造成性能的浪费。

对于普通用户来说,可能十几上百台服务器就是应用的极限了,但是互联网大厂的服务器动辄就是上万甚至几十万台,因此每台性能的略微降低累积起来都是一个不得了的数字

更重要的是,由于互联网应用的特殊性,相当一部分新采购的服务器都要进行针对性的优化,或者需要进行部分配件的调整与革新,也就需要投入大量的人力、精力和财力,造成资源的浪费。

因此对于以腾讯云为代表的云厂商来说,势必要从整机的设计上面,去精简不需要的功能;优化整机的散热能力,降低能耗。配备一个非常强的供应链的管控。去降低计算力的单位成本,并进而将这种成本红利释放给数百万的云上用户。

而在安全方面,从芯片层面就进行定制化,势必能更好的保证整机系统的安全可靠。

打造云计算的基础设施

可见的是,面对未来将呈现井喷式增长的海量数据,对于腾讯云这般体量的云服务商来说,自研服务器将是一条必须要走的路线。

也正是基于此,腾讯云此次又发布了两款自研服务器:星星海自研GPU服务器和星星海新一代自研双路服务器。

刘裕勋表示:“在云游戏场景中,客户对单卡TCO,单用户成本非常敏感,迫切需要降低成本。但现存所有GPU服务器机箱长度过长,当遇到需要低延时边缘部署时,无法满足需求,会出现单卡挂死,导致整机挂死的情况”

针对类似的场景和业务需求,星星海首款自研GPU服务器在设计上,支持在同一框架内,灵活更换主板,支持多平台兼容,使得业务在面对GPU 选择时获得非常充分的竞争优势;同时结合业务对PCIe带宽要求低的特点,支持16卡GPU+4路intel服务器,达到业界最高密度,可大幅降低单卡TCO。

同时支持边缘部署,提高带宽稳定性,在可用性上,这款GPU服务器的RAS特性以及PCIe热插拔特性,使得单GPU故障对整机无影响。

星星海新一代自研双路服务器则是基于即将发布的第三代英特尔至强可扩展处理器,采用英特尔的10纳米制程,能够满足通用计算、异构计算、裸金属、高性能计算等全业务场景需求。

测试数据显示,与搭载第二代英特尔至强处理器的双路服务器相比,新款服务器的浮点性能提高70%,同时单机最高支持的内存可达12TB,可充分满足大型数据库等业务需求。

经测试,星星海新一代自研双路服务器通过深度优化定制,计算密度提升50%;通过高性能散热器和研发创新独立风道设计,散热方案支持CPU功效提升45%;基于增强的可靠性、可用性和可服务性(RAS)技术,可多维度全覆盖故障诊断、精细化定位等问题明确故障,使宕机率减少50%。

软硬一体化成趋势

事实上,在腾讯云自研服务器的逻辑中,单纯硬件的更新是不足以支撑未来云计算的业务的。

在腾讯看来,随着云计算承载的业务规模呈现指数级增长,软件和硬件的结合成为刚需。

据腾讯云服务器运营中心专家工程师牛犇介绍,在来料质量方面,腾讯云采取基于业务模型的来料筛选机制,通过云业务模型与硬盘底层参数建模,分析参数统计分布,定制化筛选标准,使得硬盘年化故障率显著降低至1/5。

在运营监控方面,腾讯云的硬盘智能监控系统通过多维度硬盘健康评分和AI 故障预测,使硬盘故障提前识别率提升至80%。

据雷锋网 (公众号:雷锋网) 了解到,截止目前,腾讯数据中心正在运行的服务器超过100万台,经统计,硬件故障导致的系统宕机中,内存故障占比排第一。

腾讯云通过优化算法进行内存筛选、优选X4颗粒内存条、使能多种内存RAS特性等方式大大提升了服务器的可靠性,并通过部署MCA Recovery技术,有效缓解了不可纠正错误的影响,减少40%以上内存故障导致的宕机。

此外,在网络、运维等方面,腾讯云也都打造了软硬一体化解决方案,去进行优化。

其实不仅仅是自研服务器,以腾讯云为代表的云服务厂商也在数据中心、云端软件等领域也进行了广泛的投入。

对此,刘裕勋对雷锋网表示到,云上的客户是非常的“挑剔”的,同时云计算市场的竞争也很激烈,客户都希望用低成本,高质量的产品,客户要求的苛刻会推动我们去做更多的变革和演进。

在此背景下,通过自研服务器、自研数据中心技术、再到上层的IaaS、PaaS、SaaS平台的协同打造,势必能够更好的满足用户的业务需求。(雷锋网)

云计算正在定义硬件

随意打赏

提交建议
微信扫一扫,分享给好友吧。