中国工程院院士邬贺铨:中国数据中心规模不小于美国 云与绿色成未来主旋律
当前,伴随着新基建热潮的涌动,5G、工业互联网、人工智能、云计算、大数据等新技术和新应用快速发展,数据中心作为经济社会运行不可或缺的数字底座,迎来了建设与发展的黄金期。那么,如何才能实现数据中心的高质量发展,如何平衡规模与成本,如何在快速扩张的同时实现低碳绿色呢?为此,《人民邮电》报特开辟“创新驱动数据中心高质量发展”专栏,邀请产业链各环节分享数据中心在技术创新、应用创新、商业模式创新等领域的实践与思考。首期特邀中国工程院院士邬贺铨深度解读我国数据中心的前景与发展方向。——编者
当前,我国数据中心产业正处于蓬勃发展之中,在取得快速增长的同时也实现了质量提升。而从规模上来看,我国数据中心还有巨大的增长空间。如何在前进的道路上实现高质量发展?日前,《人民邮电》报记者独家专访了中国工程院院士邬贺铨,而云与绿色无疑是答案中的两大关键词。
中国潜力巨大
“中国的数据中心尽管增长很快,但相对美国来说总量还是比较少,而巨大的互联网用户群体,注定中国未来数据中心的机架数不会低于美国。”邬贺铨强调。
当前,我们身处一个“数据大爆炸”的时代。统计显示,人类历史上90%的数据都是在过去几年产生的,50%是在短短两年内产生的。联合国《2019年数字经济报告》显示,全球IP每秒流量1992年仅为1.16MB,但是到2022年将达到150TB,30年增长1.3亿倍。而根据《华为全球产业展望GIV》,全球新产生的数据量将从2018年的32.5ZB快速增长到2025年的180ZB。
中国的数据中心规模迅速扩大。近日36氪研究院发布的数据显示,截至2019年年底,我国在用数据中心机架达到315万架,其中大型以上数据中心增长较快已超过250个,机架达到236万架,占比超过70%。
从全球数据中心的发展来看,美国数据中心机架数目前已占据全球40%的市场,其后是中国和日本,分别占8%和6%。邬贺铨认为:“中国数据中心发展比美国晚5年,但中国的互联网用户数决定了中国数据中心规模将来不会小于美国。”
云数据中心成为方向
数据中心是各种IT资源的集成中心,也是数据存储、处理和交互的中心。伴随着云计算的发展,数据中心也开始云化转型。“云数据中心,采用超融合架构,可以实现更好调度。”邬贺铨指出。
云数据中心相比传统数据中心,有着一系列的优势。首先,采用超融合架构,将物理分布的服务器、存储、网络等资源虚拟化为逻辑集中的巨大资源池。其次,采用容器和微服务模式,通过云计算管理平台可动态监控、调度和部署各种资源,从而按需向用户提供差异化服务。再次,基于IPv6协议,能够实现云网协同与多云融合。最后,改进数据中心的可扩展性,降低管理的复杂度,提升运营维护效率,增加安全可靠性。
数据中心能耗不容忽视
“相比传统产业,数据中心作为一项ICT产品,本身的能源利用效率是比较好的,但是数据中心的能耗还是会伴随着快速发展而较快上升,因此其自身的能耗仍不可忽视。”邬贺铨指出。
数据中心自带“绿色”基因。有资料认为,ICT产业单位增加值能耗仅为全国单位GDP能耗的1/5,仅为全国单位工业增加值能耗的1/9。尤为值得注意的是,数据中心还将助力传统行业节能减排,对全社会碳达峰、碳中和的贡献都是正面的。
但是,数据中心自身能耗上升较快不容忽视。中国电子学会等编写的《中国数据中心可再生能源应用发展报告(2020)》显示,截至2019年,全国各类数据中心用电量占全社会用电量的0.8%~ 1%,预计到2030年达到1.5%~2%。目前,我国数据中心在能耗上的表现不一。中国数据中心工作组(ODCC)的数据显示,PUE(电能使用效率)在1.0和1.2之间的占比仅为5%,高达51.6%的数据中心PUE为1.4%~1.8%,PUE降低还有很大空间。
我国数据中心PUE降低还有很大的空间。
多措并举提高能效
“提升数据中心的能源利用效率,可以从建设和技术两方面优化,多措并举。”邬贺铨指出。
在建设方面,可以通过优化选址和充分利用绿色能源来提高能效。所谓优化选址,就是选择气候条件适宜、绿电供应充足的地区建设数据中心。此外,还可利用山洞自然冷风循环、海水制冷等。而在数据中心的园区建设上,可采用预制化装配式建筑,在建设上叠加光伏,采用综合供能、高效制冷、余热循环利用等措施。
在技术方面,数据中心提升能效其实大有可为。例如,通过优化数据存入与读出的体系架构与机制,实现上级可调用下级数据,但不必将下级数据库数据再复制存储至上级数据中心,从而避免了重复存储带来的巨大浪费。
数据预处理可以仅存储有效数据并提升数据利用率。当前,数据预处理能力不足导致数据存储与利用率低。有资料认为,当前企业的数据仅有不到2%被保存。而保存下来的数据,由于技术与流动性的问题,只有10%的数据能得到分析。通过数据清洗与标注提升存储数据的质量,可以减少无效数据的存储。数据清洗是对数据进行一致性检查,处理无效值和缺失值,从而大大减少数据的存储量。数据标注通过对数据进行分类标注、标框标注、区域标注、描点标注等,也能够减少存储量。不过,“目前数据的预处理70%的工作量还是主要依靠人工完成,因此数据中心目前还是劳动密集型行业。”邬贺铨特别指出。
云边端协同可以有效提升数据处理效率。例如,一个城市的视频监控数据如果直接送到云端进行AI分析将占用大量计算与存储资源,需要云边端都具有一定的数据处理能力并协同。又如,VR视频需要交互而且画面需要渲染,手机的GPU来做渲染时会遭遇画面卡顿且手机发热的挑战。对此,可以将视频图像分解为前景与背景,分别由手机与边缘计算完成。与此同时,可以通过采用预渲染全景帧、移动预测、多核CPU并行解码等技术以降低时延。
正确应对小数据带来的挑战,例如通过迁移学习和高效AI分析,实现“小数据小算力大任务”,也可以有效减少数据存储量。2020年6月,IEEE举办了世界计算机视觉植物病理学细粒度分类挑战赛,考察对苹果树叶锈病、痂病等疾病的AI识别能力。IEEE提供了含标签错误的1821张训练照片和1821张试题照片,这是典型的“小数据小算力”问题。支付宝天筭安全实验室采用了随机光照、随机对比增强、上下与左右翻转等数据增强技术,得分居1327个参赛团队之首。
特别值得注意的是,“比特币耗能惊人且毫无社会价值,必须加以限制。”据英国剑桥大学的替代金融研究中心(CCAF)计算,比特币的能耗已超过全球所有数据中心的一半,而中国几乎拥有世界上一半的“矿工”。随着比特币不断被挖掘,规则设计就会变得越来越难,这就意味着需要越来越高的算力投入到比特币挖矿上。“巨大的能耗,并没有给人类带来任何有用的帮助,还纵容了一些投机行为,应该限制比特币的应用。”邬贺铨指出。事实上,针对比特币带来的巨大能耗,我国相关监管机构已经开始采取有效措施进行遏制。例如,5月21日,国务院金融稳定发展委员会召开的第五十一次会议提出,打击比特币挖矿和交易行为。
责任编辑:姚治