专访阿里云弹性计算负责人褚霸:云计算进入了消费升级时代 还有盒马般的极致用户体验
「开箱直播」对于数码硬件爱好者来说并不是什么新鲜事,但在云计算这个行业却是前所未见的,而且开的还是一台「服务器」。服务器的开箱直播对于普罗大众来说太过专业可能没什么吸引力,对于内业人士来说服务器都千篇一律也并没什么可看的点,然而前不久,阿里云在云栖社区上进行了云计算史上的第一次服务器开箱直播却一反常态,各技术论坛和媒体也重点关注了这一事件。这是此前在业界颇为神秘的阿里云神龙技术架构服务器在这次直播中首次全方位曝光,用现在流行语来说,神龙「重新定义了」云服务器。
其实,云计算服务商推出裸金属服务器已经不是什么新鲜事,国外的 Oracle、IBM、微软,国内的华为和腾讯等都推出过类似的产品,但这些产品并没有什么新意,基本就是传统物理服务器加了个「云」字,而阿里云的「弹性裸金属服务器」(又名「神龙」)则是一种「新形态」下产品,这种新型的计算架构打破了过去物理机和虚拟机的隔阂,既保留了物理机的性能优势和硬件级隔离,又具备虚拟机的弹性资源、分钟级交付、全自动运维的优势,比所谓的「传统云服务器」在技术上更加复杂。而建立在神龙弹性裸金属服务器基础上超级计算集群(Super Computing Cluster,简称SCC),在提供高带宽、低延迟的优质网络的同时,还具备弹性裸金属服务器的所有优点。
如果说传统的云服务器就相当于我们每天用的 PC 机,而神龙则是一台建立在云上的超强服务器,而 SCC 则是一台云上的超级计算机,云上的「太湖之光·神威」。
从某种意义上来说,神龙和 SCC 的出现代表着的云计算进入了「消费升级」的时代,云计算的客户已经不再满足于「上普通的云」,还要上「更高质量的云」。
客户对计算的要求更高了
前不久,创见采访了阿里云弹性计算的负责人,技术界响当当的大牛任务,花名「褚霸」的余锋。他告诉记者,现在大客户对弹性计算提出了很高的要求,我们必须要满足他们,而如果要满足他们,就必须要把产品的定位从以前的「入门级」升级到「专业级」,当这种定位发生转变之后,弹性计算的设计哲学也发生了相应的变化,不能再以入门级思维去设计「专业级」的产品。
褚霸举了一个例子来解释这种转变,很多人买第一辆车的时候更多考虑的是便宜实惠好用,「能开就好」,当随着开车技术的日渐娴熟、车主的收入也日渐丰富的时候,对于第二辆车的要求不仅是「能开就好」,而且要「开得爽」、「开得安全」。当车主提高更高的要求时,车厂就要重新想办法如何提升汽车的科技含量,如何在增加汽车性能的情况下还能减少耗油量,如何在设计出更酷炫外观的情况下还能降低汽车的价格,如何能够在炫技的同时还能保证安全等等。
云计算的客户也是这样,随着云计算在国内已经成为主流,「上云」已经不再是一个问题,而是「上哪朵云」的问题。前不久阿里云把多年的广告语「计算,为了无法计算的价值」改成了「上云就上阿里云」,广告语的改变也反映了当下的国内云计算的形势发生了转变,阿里云已经完成了自己「云计算市场教育者」的使命,进一步告诉市场「上哪朵云」是一件严肃的事情,必须要选择一个安全可靠的云,实力强大的云,而不是「能上就行」的云。
先「云」起来的那一部分客户已经享受到了云计算带来的价值,相应地,他们对于云计算的要求也逐渐提高,需要有更大的带宽,更小的延迟,保证绝对的安全,在提升云计算性能的情况下还能进一步缩减成本,在数据成指数级增长的情况下还能有更快的处理速度。他们对于云计算产品的参数更加重视和苛刻,「逼着」阿里云在新品发布会上跑起了分,现在又开始「开箱直播」。褚霸说, 当阿里云承诺了可以满足客户更高需求的时候,他们就必须去想办法实现。
就像神龙云服务器就是为了满足计算「消费升级」的客户而诞生的新物种。
据褚霸介绍,神龙云服务器主要适用于对性能要求较高的客户群体,如高性能计算,高性能数据库等场景或者具有高管理自动化能力的客户,已经在工业制造类客户中开始大规模商业化。工业制造业是一个典型的对计算要求极高的行业之一。工业制造业在上云之后产生的数据量惊人,因为工业对于数据的要求不仅在于量的大小,更重要在于数据的全面性,这不同于普通的互联网大数据只追求一个大样本量,但不需要那么全面,在利用数据建模的手段来解决某一个问题的时候,需要获取与被分析对象相关的全面参数。
以飞机举例,一架普通的波音 737 客机仅仅在一次单程的跨国飞行过程中就成产生 240TB 自己的数据,而整个人类在 2012 年全年才产生了 500 TB 的数据,当我们在分析航空发动机的性能时,会需要温度、空气密度、进出口压力、功率等多个参数,每一个参数都在实时地变化之中,每一种参数组合的变化就能生成庞大的数据量,而且需要尽可能全面的数据才可能不会漏掉造成任何故障的原因,这时时刻刻关系到飞机的安全性。
而处理这些「宇宙级」的数据,并不是「能上就行」的云就能够处理的,《经济学人》的一篇报道预计到 2020 年,工业机器间分享的数据将远远超过人类所产生的全部数据量。它对云计算服务提供商提出了苛刻的技术能力,而阿里云也确实以实际案例证明了自己能够处理好客户对苛刻技术要求的能力。
比如我们每年都参与的双 11 和春运期间上 12306 抢票都是由阿里云提供的计算支持,这两个场景对云服务的技术能力的苛刻要求是世界级罕见地。中科院计算所学术委员会主任徐志伟曾说过,没有哪个场景比双 11 和春运抢票更能检验中国云计算的技术成熟度和服务能力了。2017 年双 11 刚开场 5 分钟 22 秒,支付宝的支付峰值达到 25.6 万笔/秒,是去年的 2.1 倍,这意味着,在这一秒里,全球有 25.6 万笔交易同时在支付宝上完成,这是一个第二名难以超越的世界纪录。同时诞生的还有数据库处理峰值:4200 万次/秒。同样的,从 2014 年开始,铁路 12306 就把网站访问量最大的查询业务分担到阿里云。 2017 年又进一步扩大了云端容量,现在几乎所有的查询访问都在云端进行,查询能力可以达到每秒 40 万次。
把计算做到极致
当我们在提到新零售带给行业带来的革命性变化时,把用户体验做到极致是其中最为重要的环节,因为它直接关系着用户对新零售的第一印象,能让用户真正地感受到新零售时代下对买东西的一种耳目一新的体验。就像盒马生鲜之所以能够成为新零售下的新物种,就是因为它真正地解决了用户在购物时的痛点,改变了传统零售对消费者的粗放式服务,做到了真正以消费者为中心。
那么云计算也是否能像盒马一样给云计算的客户带来这种极致的用户体验呢。褚霸的回答的是 「把计算做到极致」 ,而如何做到这一点, 一来是用全新的技术来完美解决现在的问题,第二是让客户方面的工作变得更加简单,第三是真正把技术做到普惠化。
「用全新的技术来完美解决现在的问题」在神龙云服务器上体现地非常明显。当我问道褚霸,要实现客户对计算的更高要求有很多种方式,而为什么是推出了「神龙」这样一台裸金属服务器呢。褚霸说道对于用户来说关键的一点就是要把原来的习惯变掉,但是还必须要照顾用户过去的使用习惯。
实际上,在云计算发展的初期,以 AWS、阿里云为代表的云计算服务厂商和以 IOE 以及华为为代表的传统 IT 服务提供商是两个完全对立的阵营,后者甚至提出过「私有云」这种「伪云计算概念」,最终还是为了更好地卖出他们的服务器。然而随着云计算行业的不断发展,客户的类型也越来越多样性,由此带来的客户需求的变化和市场需求的变化让云服务厂商对于「硬件」的态度有了很大的变化,直到今天,公有云服务商都纷纷转向了利润更高,需求更为强烈的混合云服务,裸金属云服务器的诞生也是顺应了这样的需求,它不仅能够满足用户对云计算的弹性需求,也能照顾到客户本身使用的习惯以及客户在特殊属性下对原有习惯的延续。
在这种情况下,客户既想要普通云服务器弹性的优点,又想要传统物理服务器高计算性能及物理级别隔离的特点,但一直以来虚拟和物理的结合总是存在很多的问题,首先是在不同硬件以及不同软件之间的兼容问题,在解决兼容问题后在计算的技术参数上又存在提高的瓶颈,就像是在强行解决了「鱼和熊掌,可以兼得」的问题后,发生了「鱼和熊掌」兼得的不是很完美的问题。
为了完美解决这个问题,褚霸和他的弹性计算团队意识到 不能以过去的思维来解决技术上的瓶颈,而需要用全新的思维方式、全新的技术来解决当下的问题。 为什么就不能直接做出一个新产品,它既能够在融合了物理机与云服务器的各自优势下实现超强、超稳的计算能力,它既能兼有普通云服务器的弹性特点,又有物理机的高计算性能及物理级别隔离的优势。
神龙云服务器做到了。作为一款云端弹性计算类产品,神龙云服务器达到了当前世代下物理机级的极致性能和隔离性,做到了客户独占计算资源,无虚拟化性能开销和特性损失。阿里云官网显示,在规格选择上它支持 8 核、16 核、32 核、64 核、96 核等多个规格,并支持超高主频实例。以 8 核产品为例,神龙云服务器实例支持超高主频至 3.7GHz-4.1GHz,让游戏以及金融类业务的性能和响应达到极致。
在安全性方面,除了具备物理隔离特性之外,为了更好地保障客户云上数据安全,神龙云服务器采用了芯片级可信执行环境具备「加密计算」能力,确保加密数据只能在安全可信的环境中计算。这种芯片级的硬件安全保障相当于为云上用户的数据提供了一个保险箱功能,用户可以自己掌控数据加密和密钥保护的全部流程。
正如褚霸所描述的,如果客户要那我们就给他,而且能给出的是最好的东西。 不仅给出最好的东西,还要满足用户「任性」的需求。 这不禁让我想起阿里云总裁胡晓明在 2017 年云栖大会上说的,「为阿里云平台的客户提供服务,今天不仅仅支持你一天,不仅仅支持你一小时,还可以支持你秒级,你使用一秒也可以,按秒级计费……我们有 207 种企业应用场景,只要你有需要,我们就为你提供各种计算能力(来满足)。」
接下来,如果已经给出了最好的东西,那么用起来又会不会更加复杂呢,要知道,上云是一件非常复杂的一件事情,它可以让一整个技术团队在很长的一段时间内过着起早贪黑的生活。
然而看过神龙云服务器开箱直播的人都知道,在现场的演示环节中,主播仅用了不到 5 分钟的时间就完成了从创建到部署一台弹性裸金属服务器的全过程。阿里云虚拟化资深专家张献涛表示,「我们从一开始就希望打造一个能让用户无障碍使用的产品,不仅在性能上追求高效,在设计上我们更多考虑的是用户的时间成本。」
神龙架构创新实现了性能「零」损耗、上云「零」障碍,100% 兼容阿里云产品生态,充分满足企业关键应用系统、高强度工作负载应用等上云要求,为用户了提供一种新型的计算资源交付方式。
褚霸对记者表示,客户的要求是很朴素的,就是东西要一点,速度快一点,然而要实现客户这个「朴素」的愿望却不是一件容易的事情,而阿里云弹性计算团队能做到的就是把自己的全部精力和时间做好产品,来满足用户最朴素的需求上。而且更重要的是「随着网络的提升,技术的提升,过去不敢做的事情,今天可以发生,而且是很普惠的方式提供出去。」像神龙云服务器这样的产品把云计算带到了一个全新的高度,而价格却没有随之上一个新高度,依然是一个非常「朴素」的价格。
算得快,算得准,算得起,云计算领域将更多目光关注到更出彩的前两项,然而「算得起」,即计算成本的下降,将成为未来云计算真正普惠产业的重要前提,也是让云计算真正做到如盒马版极致体验的决定因素。