中国超级计算机日租金上万元,硬件领先软件仍需大量投入
王嘉兴/中国青年报
除了呼呼的风扇声,赛场一片沉寂,在场的上百名大学生紧盯着电脑,手指飞快地敲击键盘。
这群平均年龄不到22岁的大学生,面对的是当下最前沿的研究:机器阅读理解、获2017年诺贝尔化学奖的冷冻电镜技术、美国国家航空航天局(NASA)的流体力学模拟软件……
面对海量的数据,清华大学的大四学生李北辰估算后决定调整方案,“几乎没法跑完”。临到结束,他甚至能听到自己的心脏“咚咚”地跳动。
这是2018年世界大学生超级计算机竞赛(简称ASC18)的现场,在2天20小时的规定时间里,每个队伍需要自己搭建小型超级计算机,完成组委会布置的4道题目,运算的结果将作为最后成绩的评分依据。
李北辰队伍搭建的机器的运算能力,约为1万台现在市面上主流家用电脑运算能力之和,但相比目前世界上最快的超级计算机“神威·太湖之光”,他们的算力还不到百分之一。
在几个国家超级计算中心的超级计算机里,日夜运行着全国各地发来的运算指令。不管是天文观测、航空模拟计算,还是天气预报、生物医疗等日常生活的需求,都需要超级计算机的支撑。
“超级计算机的研究水平决定了一个国家的尖端科研实力。以天气预报为例,如果计算明天天气的时间超过一天,那这个预报就毫无意义了。”国家超级计算济南中心主任张云泉告诉中国青年报·中青在线记者。目前中、美、日、俄等国对高性能超级计算机研究大力投入的背后,也是抢占科研制高点的竞赛。
1后面17个0
这是一个以万亿为计量单位的世界。
在超级计算机领域,有着一份世界500强榜单。根据最新的排名,如果一台机器的运算能力达不到500万亿次每秒,它将被无情地“除名”。衡量超级计算机的标准“简单粗暴”:运算能力够快。上一代超级计算机使用的架构与目前主流的不同,现在的技术将来也可能被量子计算机取代。
这份榜单每隔半年更新一次,总是能引起全世界的关注,人们津津乐道冠军的更替,哪个国家上榜的超级计算机最多、总算力最高还被美国总统写进国情咨文。
2013年至今,中国自主研发的超级计算机就一直稳坐榜首。最近两年,这个位置属于“神威·太湖之光”,它的峰值运算速度达到每秒12.5亿亿次,“1”后面17个“0”,大致相当于200万台普通电脑同时运行。
但它远不止是堆积用于运算的中央处理器(CPU)和图形处理器(GPU)这么简单。张云泉告诉记者,超级计算机的运算速度不遵循“1+1=2”的公式,还得考虑它们之间工作分配、数据传输的损耗。“这就像领导10个人和领导1000个人的区别,如果不能合理管理,每个人的工作效率都会大大降低,即每个CPU和GPU的性能都没有得到充分运用。”
在国家超级计算济南中心,“神威·蓝光”超级计算机黑色的机箱紧密排布,围成一个大圈,被小心安放在数百平方米的一楼大厅内。当这台研发费用数亿元的机器运转时,功耗是1兆瓦,大致相当于1.5万户家庭的家电功率总和,每年仅电费一项支出就接近2000万元人民币。
相比国家超级计算中心的“大手笔”,李北辰参加的ACS18则要求机器总功耗在3000瓦以内,这意味着能使用的CPU、GPU数量有一个上限。
为了最大化利用它们的运算能力,他们必须精打细算,一方面仔细分配每个节点的运算内容,另一方面还要简化复杂的运算,让每个节点能同时计算尽可能多的内容。
在这次比赛中,他们队伍用了16块GPU,总价值超过60万元人民币。为了分摊风险,几位队员一人负责几块,小心翼翼地将这些宝贝从学校的实验室运到比赛现场。赛前,场地上趴满了选手,大家都在紧张地安装和调试设备。
租用超算一天,花费上万元
比赛开始不多久,参赛的选手就开始冒汗。除了心理因素,还因为现场设备高速运转时,会释放大量的热量,队员戏称“可以摊鸡蛋了”。每个GPU都必须配备降温风扇,否则就会因温度过高而停止运行。
对超级计算机来说,如何有效地带走这些“大脑”思考时散发的热量一度是发展瓶颈。在国家超级计算广州中心,工程师专门建造了冷水厂,不间断运送8摄氏度的水进入“天河二号”的水冷系统。
机房还安排人员24小时值班,监控机器的运转状况,清理垃圾进程,实现效率的最大化。“是机器就有损坏和出问题的概率,怎样让它们的影响尽可能小也是门学问。”张云泉说。
李北辰曾参加另一场大学生超算竞赛,48小时不间断地比赛,他和队员只能轮流睡觉,保证有人时刻盯着机器运行。此外,组委会还随机对赛场断电,考查程序及时备份的能力。在实际使用中,这些都是极可能出现的挑战。
中山大学肿瘤防治中心的博士后赵齐对此深有体会,他所在的团队是最早用“天河二号”测试生物应用的团队之一。因为需要处理大量的生物基因组数据,他们从2012年起就开始使用超级计算机。
他告诉中国青年报·中青在线记者,他曾遇到各种奇怪的报错和任务丢失,环境配置也不定时出问题,经常算出他自己都不敢相信的结果。
这是因为生物信息领域在超级计算机上的应用还在起步阶段,成熟的软件不多,很多时候需要用户和超算中心的工作人员合作开发解决问题。
在过去5年,光他一个人就用“天河二号”处理了超过100TB的数据。超级计算机能在几天或几小时里,处理一般计算机半年乃至几年才能处理完的工作。以前,等待运算结果是他最苦闷的时候,“用上超级计算机算是奔小康了。”
因为需要处理的数据太多,网络传输较慢,赵齐有时会采用邮寄硬盘的方式,“邮递员最快”。
只是这样的代价很高。赵齐所在的实验室每年消耗在数据存储上的钱就在5万元左右。租用超级计算机进行数据处理,有时一天就会花费上万元。
对多数用户来说,使用超级计算机和自己的电脑没什么区别,登录账号,上传数据就行了,运算远在千里之外进行。
超算世界500强前两名是中国
当你拿起智能手机,向语音助手询问天气,远在美国的超级计算机在不到1秒的时间里理解了你的意思。甜美的女声播报的结果,则由济南、广州、无锡等多地的超级计算机共同计算得出。
大量影视公司利用它进行后期特效处理,传统制造业也倚仗这个技术,部分公司洗衣液的瓶子都是超级计算机设计的。
有了超级计算机,研究者可以模拟出人类器官对药物的反应,大大缩短新药的研发时间,节省成本。在抗埃博拉病毒药物的筛选中,超级计算机能够在一天内完成超过4000万分子化合物的筛选,以最快的速度应对爆发性恶性传染病。
此外,使用超级计算机进行核爆炸模拟还是美国研究核武器的方式。
过去,超级计算机的主要任务是进行科学计算。最近几年,有关人工智能的运算请求也越来越多。
为此,ASC竞赛也开始引入人工智能的问题,李北辰打比方说,过去他们的工作类似于计算式子的结果,但现在,他们更像是在做应用题,要先读懂问题,从中抽象出式子,再进行计算。
目前,“天河二号”的用户已经超过1200家,包括各大高校、研究所,支撑国家级课题超过400项。
2001年时,超级计算机500强名单中没有一台来自中国。而现在,榜单前两名都被中国占据。此外,中国的上榜数量达到204,排名第二的美国只有143。
2015年,美国开始对中国超级计算机领域施行芯片禁运,在那以前,美国对中国出口超级计算机也有诸多限制,例如出售的机器性能不能高于中国自己所能研发的机器性能。
张云泉告诉记者,我国已经掌握超级计算机的制造技术,包括“神威·太湖之光”“神威·蓝光”的一系列设备,从芯片、操作系统到冷却系统都完全由我国自主研发。
虽然中国在硬件条件上取得领先地位,但软件方面仍需要大量的投入。目前应用于超级计算机的商用软件几乎全部由美国、日本等国开发,中国的市场占有率基本为零。
“应用于超算的生物信息学软件开发起来举步维艰。”赵齐感慨,“人才缺口很大。”他所在的专业,很多人都放弃使用“天河二号”,因为学习和沟通成本太高。他觉得,超算中心应该做更多对超算技术的科普和培训。
在计算机科学领域,超级计算机不是热门方向。李北辰的同学中,每年只有10%左右的同学对这个方向有兴趣,多数人还是投身人工智能的研究。
在张云泉看来,解决软件问题需要政策和财政两方面的支持。“西方国家在超算领域多是制订10-20年的计划,背后有点军备竞赛的意思。但中国一直是制订5年计划,完成后再讨论下一个5年要不要继续。这样规划不够长远,技术团队也难以保持稳定。”
他介绍,我国对超级计算机领域研究的总投入与美国接近,但对软件的投入偏低,目前仅占总投入的20%。他认为,这个比例应该到50%比较合适,美国、日本也是这个比例。
“美国对超级计算机的研究已经超过了50年,而我国才刚刚30年,我们需要多一些耐心。”张云泉说,“过去我们是跟在别人后面跑,就只顾得上追了。现在我们超前了,该看清前进的方向,这比追赶花功夫得多。”