对话张建锋:阿里云重上「卡门线」
如果你近半年经常出差,可能会注意到阿里云的机场广告语已经换成了「为了无法计算的价值」——这个阿里云在 2015 云栖大会上发布的 Slogan 时隔七年重回公众视野。
那么,这句看起来在广告上显得不够「直给」,但又确实引发好奇和品读的话,到底是什么意思?又为何回归?
回到这句话诞生的时刻——2015 年的阿里云迎来了苦尽甘来的幸福时刻。那一年,「去 IOE」决策已见成效;自主研发的飞天系统在当年的 Sort Benchmark 国际排序竞赛中打破四项世界纪录;12306 首次将车票查询业务部署在阿里云,为春运高峰分流了 75% 的流量。从被质疑到赢得内外认可,阿里云过万重山后正意气风发。
从我的理解上,这句话可能是阿里云当年在走过创新无人区后对为何出发的自我回答,也是向市场证明自己后,终于亮出了这群不惧死磕的技术人的底色。
七年之后,阿里云的年营收已突破千亿,市场份额全球第三,带动全行业在过去几年持续高速增长跑马圈地,那么为何这时候放弃「上云就上阿里云」,而重新启用 7 年前这句话,就值得好好研究下原因了。
「云计算这个方向一路走来,首先带来了商业关系层面的变化。但当商业关系的变化到了一定规模,技术和商业逻辑会跟着变化,就有机会真正重构整个计算技术。」在近期与我和阿里云智能总裁张建锋(行癫)交流时,算是获得了这句话复出的背后原因。简单地说,那就是阿里云认为自己再次走到了技术无人区。
在张建锋看来,最近两年层出不穷的新技术将云计算带到新的转折点——自动驾驶、 元宇宙 、合成生物学等新兴领域都有一个共性,那就是对算力的需求出现了新的变化,云计算厂商如果不能做有前瞻性的技术布局,便会失去在未来商业创新里的基石意义。
所以张建锋认为,云计算没有中庸路线,要不断进入无人区,追求更大的意义和价值。在他眼中,云计算的技术和规模门槛都非常高,走进无人区不只是一种勇气的问题,而是基于规模的合理选择,只有在新的商业和技术条件下,重上技术创新的「卡门线」,再次突破大气层,闯入无人区,才能对计算这件事继续创新下去。
如果仔细观察阿里云今年以来的动作,确实会发现和这家公司和以往「上云就上阿里云」时代的风格有些不一样了。
今年,阿里云把最重要的战略定为「Back to Basic」,聚焦云计算的本质。这个本质既包括了对核心技术加大研发投入,也包含了对市场站位的回归。
在技术上,阿里云今年发布了一款不会售卖的技术产品,名为 CIPU,将在数据中心内部改变原有的计算体系,让云来统治上下游硬件,形成一种新的计算能力建设和组织方式。
在市场上,阿里云以算力 power 的角色屡屡出现,例如为小鹏汽车建成了中国最大的自动驾驶智算中心,将自动驾驶核心模型的训练速度提升约 170 倍。而在应用型项目中,阿里云更加明确地划分了生态的边界,上层应用能力更多由合作伙伴去补齐,阿里云聚焦在 Basic 的核心技术和通用平台能力。
其实从 40 多年前信息化时代开启以来,计算就是商业创新的「万用之基」,站在这个世界观上定义自己的目标和使命,这可能就是阿里云「为了无法计算的价值」背后,要表达的真正含义吧。
以下,是我和张建峰最近交流的一些节选记录,经他许可,也分享给大家。
01
云计算的发展
面临转折点
张鹏:阿里云的广告又回到了当年「为了无法计算的价值」,特别像阿里云在早期的状态,我闻到了某种回归的味道。它背后有什么深意吗?
张建锋: 其实云计算这么一条路走下来,上一个阶段主要体现在计算的组织方式和商业模式的变化,比如你自建变成我帮你代建,是建立一种新商业关系支持下的,计算能力的新组织方式。
但是,这个变革到一定规模之后,技术和商业逻辑也会跟着变化。或者说,云计算做到一定程度,整个体系就要被重构。比如这些年来,设备供应商就会发现,他们原先批发,托管、零售,然后简单商业化的模式在商业上被重构了。而云计算的企业本身,也一样需要思考在下一个技术体系或者商业体系下自己的定位是什么,能力是什么。
张鹏:所以「新计算」带来「新商业」的重构,但是「新商业」,也会不断推动「新计算」的重构?
张建锋: 这是必然发生的循环。而且阿里云需要看到技术创新带来商业逻辑重构之后,自己确实获得了规模,但有规模之后,是简单地靠规模优势去把历史价值吃尽,还是寻求新的创新能力去赢得新时代的更大价值,也是个要好好思考的问题。
张鹏:类似于上一次技术创新突破「大气层」后的势能,是用来一路滑翔?还是用来再次突破「卡门线」?
张建锋: 对!其实这个时候如果你真的重新研究计算,就会发现你真的有机会去重构整个技术的架构。
以前如果你的商业平台没有规模,自研 CPU 是没有价值的。而随着商业平台规模化,自研 CPU 的使用量占比越来越高。这时候,云厂商会有能力去定义下一代 CPU 长什么样,下一代 GPU 长什么样,下一代计算长什么样。这是真正令人兴奋的议题。
云计算是规模+技术的模型,必须对技术和规模都有足够的追求。而从历史上看,其实这样的企业模型才是更有竞争力的。比如苹果是「技术+规模」,亚马逊也是。这样的体系结构跟单纯靠商业模式变现,后来又被别人超越是有很大差异的。
我认为中国云计算现在可能面临一个最大的转折点。云计算的门槛很高,全世界的头部云计算厂商主要是美国的,中国恰好还有希望,但这个希望是不是可以实现,还是要客观认识到很多基础问题。
比如,什么是云计算,云计算的商业模式跟技术的体系关系到底是什么?我觉得这件事必须要「back to basic」,去看下一代的技术结构和商业模式是怎么样的。
02
计算的创新
张鹏:从 PC 出现到今天,应该说计算的创新进步一直是商业创新的「万用之基」,所以阿里云怎么理解下一代的计算?
张建锋: 首先,我觉得把计算这个词定义清楚很重要。「计算」听上去包罗万象,我们可以把所有现在没有想清楚的东西都放到这个里面去。而从我的角度,我觉得对计算创新方向理解应该有三个层次:
第一个,回到传统意义上的算力上看,都是这么多的 CPU,云厂商集中给你提供计算能力服务,能不能比你自己去自营自建做得更有效率?商业公司本身是否可以不要去关注计算能力构建的复杂度了,你只要按需使用这个能力,去有效解决自己的商业问题就可以了。怎么把原来本质上的托管形式真的变成一种能力服务的形态,不只是商业模式的问题,同样是技术问题。
第二个问题则是「算力」本身在变化。或者我们谈到的「计算能力」所说的目标不一样了。比如说自动驾驶起来了,有大规模的数据要处理,那就不是原来这一套计算架构和机制能够最高效处理的,他需要新的思路和新的技术能力。
那么再进一步,第三个问题,甚至是一个客户需要的算力既有传统的也有新的,你怎么有效地组织最有效的计算来面对?我举个例子,客户的一个 workload 是无数个多种多样的计算综合的,如果要效率很高,就需要有适用的算力,把所有工作全部编排拆开,这个转化成本就非常高。
所以下一步必然会发展到融合计算,一个 workload 交给它,这是 CPU 那就 CPU 来算,是 GPU 就 GPU 来算,XPU 的就是 XPU 来计算,这个我觉得是下一步我们去理解和构架新型算力的基础,也不见得说这个算力的硬件比别的好很多。但是你一个负载交给它,它一定会比别的好很多才行。
阿里云数据中心内部图
张鹏:所以云计算的定义也必然会变化,不仅仅是一种算力的新组织方式和新商业模式,必须在计算技术上向前探索。
张建锋: 云计算这个词,其实我觉得一直有挺多误解。例如,有人来买云计算,先考虑我买了一百个核、买了多少内存、买了多少存储,然后比较一下这个我自己买是贵了还是便宜了,这还是资源型的购买思路。
这个不对,云计算发展到后来是把物理资源的成本计算都屏蔽掉,因为客户买的确实是一个要能解决问题的服务,并不是那些数字。
我们现在讲 serverless,这是个很重要的词。云的企业是提供算力的,客户不应该关心买了多少资源,客户真正关心的是他的需求用多少时间内能被做完。这背后使用多少硬件资源本质上跟客户没关系。你帮人家做完多少事情,就收人家多少钱。
而这个模式才会真正理顺大家对云计算的认知,真正从托管的商业模式逻辑变成一个全新的逻辑。云计算不是云+计算器,也不是云+计算机,是以云的方式组织符合时代需求的计算能力,交付的是能力。
而要做到这一点,云计算的企业就必须在技术上不断创新,进步,要站在时代前面去定义问题,解决问题。否则你怎么更有效率地帮客户解决问题呢?
张鹏: AI 显然会越来越多地在商业世界中扮演重要角色,你说的新计算能力会怎么在这个进程里发挥作用?
张建锋: 中国的人工智能过去比较集中在视觉领域。我觉得接下去的发展,这条线肯定会继续发扬光大。特别是以自动驾驶为代表。自动驾驶就是你要去观察,要去做决策。现在用毫米波雷达也好,或者激光雷达也好,都是在取代人眼去做观察。这个领域我认为确实可能在三到五年之内有非常基础性的突破。他们做这个东西,那我们得提供基层的算力。这个算力有很多特点:数据量巨大,模型巨大,这需要有新型的计算体系来解决。
而第二条线我认为是跟视觉听觉没有关系的,纯粹就是用大数据做模型预测,这个一般叫决策智能。不管在生活上,还是在商业上,都有很大的用途。这方面可能更多要算法的突破,但对云计算厂商是一样的,他们都有个巨大的特点:数据量超大。数据量超大意味着什么?意味着你要有新型的网络机构。第二,你有很强的算力,第三,你要有非常好的模型,现在很多模型都有上百万亿参数。我认为这两个层面是我们今天要关注的重点。
03
要直面「定义
问题的能力」
张鹏:技术型的公司,对技术战略做出判断一定是个头等重大的事情。我很好奇这考验的到底是什么能力?
张建锋: 其实说起来也很朴素,就是「定义问题的能力」。以前别人看中国企业似乎最缺的就是定义问题的能力,因为数字化时代开启后很长的一段时间,似乎都是别人提供这个定义。我们跟随能力很强,比如以前有过一段是美国人做出来的,中国人很快就追上来了。
确实,定义问题的能力并不简单,比如说马斯克认为以后通讯是要靠卫星,火箭是可以重复使用的,他定义了这两个核心问题,较劲了 10 多年,最终拿出了解决问题的结果,这条路的确定性就对所有人打开了,这让跟随者会更容易跟进,但他也获得了技术上和商业上的领先。这也说明了很多时候缺原创技术根本上是缺原创的问题定义。
其实云计算也面临着同样的问题。比如算力,下一步再演进是投入很大,一般都要软硬件结合,硬件没有三五年出不来的。我们要做芯片,一般是要做三年,而且第一遍往往是有很多瑕疵。下这个决心背后,必须要定义好真正值得解决的问题。
2021 年,阿里云发布自研 CPU 芯片倚天 710
大企业战略的核心,就是要避免「把问题定义错了」的风险,而在正确的问题上,做一些「有质量的浪费」都是值得的。
当然,定义问题只是一个起点,同时也要看你面对一个技术方向能不能组织力量比别人更有效率地去实现。比如你有没有足够有水平的人、能不能有增量的实现,而且在商业上面闭环且能持续地发展,不然的话就只有投入没有产出,哪怕路线是对的也无法验证,所以战略的验证一定有周期。
张鹏:所以阿里云重回「为了无法计算的价值」这句话,说的是开始重新定义问题,再一次技术创新去解决问题的意思。
张建锋: 对。我觉得像云计算这个领域,其实技术门槛跟规模门槛都垒得非常高,不持续进取是不行的。要敢于再走进无人区,这也不只是一个勇气的问题,而是合理的做法,因为规模越大,你技术的创新得到的回报也越大。这个领域要么巨亏,要么有非常好的经济效益,没有中庸路线。
04
技术公司,要用商业
来证明技术的伟大
张鹏:我很好奇,你会怎么去定义一家伟大的技术公司,它一定要有哪些气质?
张建锋: 我开会经常说,苹果认为自己是一家商业公司,因为它不需要去证明我有技术,但他一定有技术。纯粹的技术公司是没有价值的,技术跟商业结合才会把技术的价值释放出来。
我们想一下,当初的贝尔实验室非常成功,贝尔实验室为什么成功?当然前提是很有钱,他可以养活,但是很多人忽略一个事实,贝尔实验室有两万多人,但是真正做 research 的只有两千人。十分之一的规模,还有 18000 人在干什么呢?全部在开发产品。
因为用市场做牵引、产品做牵引,科研才会有基础,因为要解决一个现实的问题,科研才会有方向,否则科研就是个兴趣,这跟 research 还是不一样的。像苹果公司,公司只要规模足够大,挑战的问题足够大,公司的研究一定会足够基础。但今天如果没有一个足够大的规模,也很难面对足够大的问题。你说我在做一个非常基础的研究,这个是不成立的。那应该是大学干的,跟企业是没有关系的。
华为今天的研究一定是足够基础的。因为它有目标摆在那儿,而这背后也是因为有规模摆在那儿,它就一定有意愿和能力去挑战这些问题。
张鹏:规模代表着动力和能力,有动力和能力技术这件事才能往前走。
张建锋: 所以我认为有核心技术或者一家技术型的公司,需要通过商业来证明技术的伟大,通过技术来证明技术的伟大对商业企业是说不通的。
因为商业是很苛刻的,就是要做到人家做不到的事情,又要比人家做得更有竞争力,这本身就是硬道理。商业世界里,能运用技术有竞争力地解决问题,才是证明技术多牛的最顶级方法。