AI公司“抢饭吃”,纷纷自建超算,打的什么“算盘”?
编者按:从长远来看,自建 超算 更利于 人工智能 公司探索算法新业务。此外,从优惠力度、 数据安全 等角度看,自建超算也是一笔好生意。当然,选择共有云平台还是自建超算也要根据自身公司体量,毕竟打造超算前期投入较大。
本文转载自 AI 商业周刊,原作者李熵。原标题《为什么说人工智能公司要自建超算?》。经亿欧编辑,供行业人士参考。
不仅英特尔、英伟达这些科技巨头在布局超算,人工智能创企也纷纷打造超算。商汤超算平台的计算集群已搭载超过14000块GPU,峰值计算达16亿亿次/秒,而国家“太湖之光”的峰值计算仅为12.5亿亿次/秒。
去年 旷视 宣布完成C轮融资时,创始人印奇也对媒体表示:旷视已经在中国好几个地方建了非常大的超算平台,未来的算力还需要更多。算力就像当年的存储一样,无论扩展得多快,都会被消耗掉,需要不断去投入。
其实,这些人工智能公司完全可以采用 云服务 的模式,比如租赁 阿里云 、 腾讯云 、AWS、中科曙光等共有云平台的高性能计算服务。 那么它们为何纷纷选择自建超算呢?
算法迭代快
计算力和算法是一组最佳CP,如果计算力和算法均是自己研发的,就会产生1+1大于2的“化学反应”。 因为原创算法和算力两者采用统一的接口时,更易于互相匹配和协调。且数据的收集、标注、模型建立、模型训练到输出SDK的每一个环节,都可以做到标准化和自动化,整个链条就会跑得更快,算法迭代速度更快。而公有云的超算很难满足每个企业算法的匹配。
尤其在面临新需求下的情况,比如需要1000个GPU卡联合训练,阿里云、腾讯云等这些云平台均没有此类服务,那么新需求就没法进行下去。 从长远来看,自建超算更利于探索新业务。
前不久,央视315爆出AI客服一年打40多亿个骚扰电话,以及犯罪分子通过免费公共WIFI窃取用户消费信息的现象引起热议,其背后正是我国数据安全保护薄弱的影射。如果通过公有云平台做模型训练,理论上云平台都可以看到使用方数据。一旦数据被泄露,对使用方公司将是不可逆的打击。
眼下,5G商用逐步临近,5G 时代生产方式将发生革命性的变化,很多终端数据处理都可在云端跑。这也是英特尔、英伟达等巨头企业近期极力打造超算平台的原因之一,因为超算是5G时代巨头争霸不可忽视的一面。
冰冻三尺非一日之寒,构建超算不单是将几千或者几万个GPU堆叠起来,还需要一套强大的“管理系统”——就像微软Windows操作系统。例如阿里耗费多年打造出“盘古分布式系统”,才成为阿里云的Windows。所以,对于人工智能公司,提前积累超算的经验十分必要。
从资本角度来看,在5G大爆发的行业环境下,超算的价值愈加凸显,自建超算有更大的想象空间。 在满足自身计算需求情况下,还可以租赁出去把服务卖给中小企业,或许还能盈利,也是一种商业模式。
价格便宜10倍
以阿里云平台为例,笔者粗略算了一笔账:
如果在阿里云平台选择一块卡,包括8个Intel Platinum 8163处理器和1个NVIDIA V100,服务价格为每7620元/月,即9.144万元/年。
一个以上配置的卡成本多少呢?笔者查阅发现,Intel Platinum 8163处理器的价格为1.5万元/个,NVIDIA V100的价格为7.88万元/个。所以1.5W*8+7.88*1=19.88万元,再加上服务器(包括主板等硬件)0.5万元左右,成本共计20.38万元。
对比发现,选择阿里云包月服务所需要的钱大约两年就可以买一张卡,但一张卡的寿命远大于两年,一般至少5-10年。显然,自己组装卡是更省钱的。
一位MISSION.ORG的作者Jeff Chen也对比过自建GPU计算机和租赁AWS云服务,竟然便宜10倍!
他组装一台GPU计算机,花了3千美元,其配置包括一个1080Ti GPU(你也可以用新的2080Ti来学习机器,只要再多花500美元),一个12核CPU,64GB RAM和1TB M.2 SSD。再加三个GPU,总共四个GPU。
我们非常保守地假设,因为GPU迭代非常快,一块用于深度学习的GPU在三年内价值变成0。如下表所示,如果用它超过1年,把电费算在内也会便宜10倍,如果把亚马逊一次购买多年的折扣算在内,1年大概会便宜6倍,3年便宜4倍。4个GPU便宜21倍。
自建计算机和从AWS租赁的费用比较。1个GPU版本便宜4-10倍,4个GPU版本便宜9-21倍,具体取决于利用率。AWS定价包括全年和3年租赁的折扣(35%,60%)。假设功耗为0.20美元/kWh,1台GPU机器消耗1千瓦/小时,4台GPU机器消耗2千瓦/小时。折旧保守估计为3年内的线性损耗。每个GPU 700美元。
如果你想把2080ti用于你的深度学习计算机,会多出500美元,而且对于1 GPU的机器来说,仍然是4-9倍的便宜。
造成这种巨大成本差异的原因是亚马逊Web服务EC2(或谷歌云或Microsoft Azure)的GPU价格为3美元/小时或约2100美元/月。即使当你关闭你的机器时,你仍然需要以每月每GB 0.10美元的价格为机器支付存储费用。
对于一台3千美元的GPU机器学习计算机(1千瓦/小时),如果你经常使用,将在2个月内收支平衡。更不用说你的电脑还归你所有,而且在两个月内它没有贬值多少。同样,4 GPU版本(2千瓦/小时)的更为有利,因为你将在不到1个月内实现收支平衡。(假设电力成本为0.20美元/kWh)
而且GPU性能与AWS相当。与使用下一代Volta技术的Nvidia v100 GPU相比,你的700美元Nvidia 1080 ti的运行速度为其90%。这是因为存在IO,所以即使V100理论上速度可能快1.5–2倍,IO在实践中也会减慢速度。由于您使用的是M.2SSD,IO在您自己的计算机上运行得很快。
结语
从1块卡到几万卡还需要运维费用,以及人才成本,但从长远看,自建超算更有发展潜力,也是AI公司做大的必经之路。
当然,选择共有云平台还是自建超算也要根据自身公司体量,毕竟打造超算前期投入较大 。
人工智能的核心业务壁垒和竞争力就是算法中的业务逻辑,还有就是数据。 如果核心业务已经稳健,数据和算法需要信息安全保护,则需要从公有云平台迁移至自建超算。
如果只是小范围验证业务模式,为了降低成本,可以借助公有云平台快速部署和按需租用的优势,如果资金和时间都充裕,可以直接自建超算。
编辑:杨珊珊
本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。