探访百度阳泉云计算中心,百度 AI 的底气从何而来?

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

探访百度阳泉云计算中心,百度 AI 的底气从何而来? 2018 年底,百度宣布技术体系架构整合 ABC 智能云事业部升级为智能云事业群组(ACG),同时承载人工智能 toB 业务和云业务;搜索公司及各 BG 的运维、基础架构和集团级共享平台整合至基础技术体系(TG)。

百度创始人、董事长李彦宏称此次组织架构调整将强化集中资源 " 打大仗、打硬仗 " 的能力,帮助百度客户完成智能化转型、早日迈入 AI 时代。" 百度将打造 AI 时代最领先的技术平台,实现前端业务和技术平台的资源高效统筹及组织全面协同。"

而数据中心作为上述一切业务的基础,是百度发力 AI 的根基。

目前,百度在阳泉、顺义、南京等地区都已部署数据中心。本周,钛 媒体 探访了百度阳泉云计算中心,该中心是百度自建的第一个超大规模数据中心,也是亚洲规模最大的数据中心。

探访百度阳泉云计算中心,百度 AI 的底气从何而来? 如图所示,阳泉云计算中心分为八个模组楼,而每一个区域则通过一条环状长廊连接在一起,在发生紧急状况时工作人员能够灵活调度。

就在刚刚过去的 2019 年春节,百度抗住了春晚红包互动活动的数据流冲击,阳泉云计算数据中心功不可没。

" 春晚的数据流可以用惊涛骇浪来形容。全球观众互动次数达到 208 亿次,春晚数据流量预计每秒峰值 5000 万次,每分钟峰值 10 亿次。" 百度系统部总监张炳华说道。

靠近用户的阳泉云计算中心

目前,百度在阳泉、顺义、南京等多个地区都已部署数据中心。其中,阳泉中心是百度自建的第一个超大规模数据中心,从 2011 年 9 月选址到 2018 年 9 月一期整体交付,历时 7 年,直至今日,阳泉云计算中心仍在不停的建设、扩展中。

百度阳泉云计算中心规划建筑面积超过 20 万平米,按照 T3+ 标准设计,服务器装机能力超过 28 万台。一期已建成投产建筑面积约 12 万平方米,建设涵盖 8 个高标准模组楼,机房满载可提供约 6000 个 40A 机柜、承载 16 万多台服务器。为百度智能云、百度 App、百度地图、智能城市、小度、Apollo 等百度内外部的产品和厂商提供强劲的计算能力。

选址

张炳华表示,百度在东、南、西北各大区都有数据中心选址布局,和大部分公司一样,具体选到哪可能有各种因素考量,从技术上看,主要考察以下 6 个方面的因素,最后综合平衡选择。

第一,就是环境地理条件。远离地震、海啸、台风等自然灾害地区的,除此之外,还要考虑气候条件,气候适宜有利于降低成本;第二,政策支持力度 ;第三,电力、水力的丰富度,丰富的电力和水源供应,是建设数据中心的必备条件;而且,电价也是要重点考量因素,电力成本占运营成本的 60、70%;第四,网络技术条件,地方很好,政策也好,网络接入能力好不好,能不能接入运营商骨干网,也是选址需要重点考虑的点;第五,交通环境;第六,人才条件。而选择在阳泉,则是考虑百度的业务类型,以及靠近用户,提升用户体验。

据介绍,目前百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐能力,支持 10G、25G 的通用计算网络接入和 100G 的 AI 高速无损网络互联技术。

在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过 30ms,从 POP 点覆盖用户的时延不超过 10ms,从 CDN 覆盖用户的时延不超过 2ms,确保全国用户的全面覆盖和就近接入。在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机。

优化

数据中心建设周期长,在规划过程中必须具备前瞻性。在这几年陆续建设过程中,各种先进技术都在逐渐被运用到阳泉云计算中心。其中,数据中心模块化技术、整机柜服务器技术成为了数据中心国家技术标准。其他不断成熟应用的领先技术包括 AHU 风扇墙、市电直供 +HVDC、OCU 等等。

目前,该中心已上线服务器超过 15 万台、年均 PUE 低至 1.09、超过 300 万个 CPU 核、存储容量超过了 6EB。

探访百度阳泉云计算中心,百度 AI 的底气从何而来? 图为 " 天蝎 " 整机柜服务器。2012 年开始规划设计时,决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,阳泉云计算中心的服务器,全部是以整机柜服务器方式设计制造和交付的。

张炳华介绍到,PUE (Power Usage Effectiveness,电力使用效率),是国际上通行的衡量数据中心能源效率的指标,PUE 值是指数据中心总能耗(供电、制冷、照明、IT)与 IT 能耗之比。PUE 值越接近于 1,表示效率越高。

" 数据中心成本中,电力成本占了 60%-70%,降低 PUE,可以直接降低数据中心的运营成本,提高产品的竞争能力。通过技术创新,提高数据中心能效,对行业有极大的示范作用和带动作用,同时,可以减少能源消耗,减少 CO2 排放。"

探访百度阳泉云计算中心,百度 AI 的底气从何而来? 百度阳泉云计算中心监控中心,如屏幕所示,实际当天的 PUE 为 1.06,还要低于 1.09 这一数值。

除了 PUE 以外,数据中心的机架规模、功率密度、运行稳定性、运营成本等,都是数据中心的核心指标。

对标国际巨头,百度阳泉云计算中心数据中心单体规模、算力、存储容量方面上非常强大,比如:采用 " 天蝎 " 整机柜服务器、" 冰山 " 冷存储系统、"X-MAN" AI 超级计算平台等;在数据中心基础设施架构非常领先,比如:高效供电、免费冷却、智能控制,并与服务器、网络设备间的协同创新,达到最佳匹配效果。

安全

业务安全及用户体验对于任何一个数据中心来说都是至关紧要的。百度智能云产业智能化业务负责人李硕介绍到,百度采用分层机制,基本能够做到 N+1 的服务模式,即一个用户可以通过多个入口来访问百度的服务,若访问数据时物理服务器出现故障,会通过智慧调度系统实现分层处理。

" 对于相对比较冷的数据,比如阳泉和青岛各有备份,在网盘中就不会有对应的数据,但即使该数据在 10 年内没有被用到,我们当前在使用时也能很快访问到,这个是和底层完全剥离的。如果是非常火的数据,会在多个系统中增加备份,这样南方的用户可以在广州访问,北方的用户可以在阳泉或青岛访问。"

李硕表示:" 随机关掉百度的任何一个数据中心,我们访问依旧没有任何问题,到今天为止依然是这样,这是上层服务设计需要做到的。"

在管理上,阳泉数据中心与北京总部实时联动。阳泉数据中心团队主要负责数据中心 7*24 时值班,负责现场运营管理、故障处理和维护保养,业务层面的部署和调度由总部统一调度。

为百度 AI 提供超强算力

2018 年底,百度刚刚发布自主研发的超级 AI 计算平台 X-MAN3.0。该平台专为 AI 深度学习场景优化设计,每秒完成 2000 万亿次深度神经网络计算,极大的加快了 AI 深度学习模型的训练速度。

就在阳泉云计算中心,钛媒体看到了 " 传说中 " 的 AI 计算集群。" 冷板式液冷技术已经在百度 X-MAN 2.0 上规模应用了。" 据张炳华介绍,2017 年上线的 X-MAN 2.0,是国内首个采用液体冷却技术的 GPU 解决方案,实现了超高的散热效率,规模应用后,可以去除制冷机组,全面实现无冷机运行。

探访百度阳泉云计算中心,百度 AI 的底气从何而来? AI 计算集群

目前,阳泉云计算中心是由 CPU 通用计算 +GPU 异构计算 +XPU 新一代 AI 处理架构所组成的强大算力平台。不仅仅是百度搜索、度秘、智能云、基础技术、新兴业务的基础,更是百度发力人工智能、自动驾驶、AI 的重要基石。

探访百度阳泉云计算中心,百度 AI 的底气从何而来? 张炳华对钛媒体说道,这些算力平台定义了 AI 时代的基础设施标准,并为百度 AI 技术多年积累和业务实践的集大成——百度大脑提供了强大的算力平台。而算力平台之上的百度大脑,则为百度的 AI 业务提供了强有力的算法和数据支持。

" 我们都希望通过开源和开放,把中国的数据中心产业生态做好,缩小与国际先进水平的差距,大家一起想办法把蛋糕做大,把规模效益做起来,这样的话,每个参与者都是受益者。ODCC 每年发布的几十项成果,这些成果都是由各个会员单位贡献的,这些个成果都是开放的。随着这个生态的规模越来越大,产业链越来越成熟,也越来越得到行业的认可。"

来源:钛媒体

本文被转载1次

首发媒体 砍柴网 | 转发媒体

随意打赏

阳泉百度云计算中心云计算数据中心大数据人工智能阳泉云计算中心云服务是什么云计算中心
提交建议
微信扫一扫,分享给好友吧。