开源平台Cloudera暴跌40%,Hadoop不行了吗?
Tom Reilly, chief executive officer of Cloudera Inc.
今年6月6日,Hadoop 商业 公司Cloudera突然暴跌了40%,一时间引发了大家激烈的讨论,在这些讨论之中,最具代表性的观点便是Cloudera的暴跌代表着Hadoop的陨落。
但我认为Cloudera的暴跌与Hadoop无关。
健康的Hadoop
Hadoop现在还是非常健康的。
图1 Hadoop大数据分析市场情况
首先,我们看一下Hadoop的市场情况,根据statista的测算,2019年全球Hadoop和大数据市场规模约在340亿美金左右,且5年复合年增长率高达28.5%——从这点看,Hadoop没有衰落的迹象。
其次,我们再看一下现在最火的云计算厂商的情况,打开他们的产品页,我们看一看对大数据怎么想:
图2 四大云厂商Hadoop情况
从图2可以看到,不管是Amazon的EMR、谷歌的Dataproc还是阿里云的E-MapReduce和Azure的HDInsight,四大云厂商无一例外都选择了Hadoop,而且均占据了其产品页头部的位置,这足以说明Hadoop在云厂商心目中的地位——从这点看,Hadoop也没有衰落的迹象。
然后,我们再看一下Hadoop本身。
图3 Hadoop生态 from oreilly.com
Hadoop从2006年发布以来,不仅点燃了大数据的热火,自身也在热火中逐渐发展壮大,从一个软件变成了一个生态。在HDFS和YARN基础上长出来一系列大名鼎鼎的软件,这里边既有老牌的Hive和Hbase,也有热度正在攀升的Spark和Flink,总体接近四十多个,从实践中看,Hadoop仍然是企业大数据处理系统最佳甚至唯一的选择——从这点看,Hadoop也没有衰落的迹象。
最后,我们再来看看招聘要求,就拿中国最顶尖的这部分公司为例,比如百度、阿里、腾讯、头条、美团、滴滴、网易等,这些公司对大数据工程师的要求第一点便是Hadoop。看完这些JD,毫不夸张的说,如果你是候选人而只让你选一门技术做准备,那一定是Hadoop——从这点看,Hadoop也没有衰落的迹象。
图4 各大公司招聘要求
说Hadoop衰落的人提了一些论点,其中最有价值的便是S3正在动摇Hadoop的HDFS,K8S正在动摇Hadoop的YARN。HDFS和YARN是Hadoop的根基,根基受到挑战,Hadoop将会沦陷。
但我们看一下Hadoop的历史就会发现它从来不缺挑战,比如Spark,当时号称比Hadoop快一百倍,后来仍然成了Hadoop生态中的一部分,跟Hadoop和谐共生。而且当时Hadoop才出来没多久,考虑到已经在各大公司部署的庞大Hadoop集群,现在看到K8S和S3就说Hadoop要衰亡,这就有点为时过早了。
Cloudera怎么了?
如果说Hadoop没问题,那Cloudera暴跌是怎么回事呢?
我们先看这次暴跌发生的时间点。
这次暴跌发生在Cloudera 现任 CEO Reilly宣布辞职,并公布了FY20 的第一季度财报之后。
Cloudera在财报里表示其营收略低于预期(预期$188M,完成$187M),并且也调低了FY20营收预期,从$835M - $855M降到了$745M - $765M,对应的年增长降到了0%-10%。
有人说这种增长率显然对一个新技术公司来说太低了,是这次暴跌的主要原因。
但我认为这并不充分。
Cloudera在今年1月的时候刚刚完成了与Hortonworks的合并,这种合并必然需要一段时间的调整期,所以财务情况跟预期略有出入也不是特别意外。
那是不是说这次暴跌是黑天鹅事件,Cloudera本身是没问题的吗?
当然不是,Cloudera有问题,而且很大。
它既有远虑,也有近忧。
先说近忧。
前面提到Cloudera和Hortonworks在今年1月份进行了合并(合并后还叫Cloudera),而两者都是Hadoop商业服务公司,各自在Hadoop基础上都有了自己的产品线,Cloudera的产品叫CDH,Hortonworks的产品叫HDP。
所以合并之后第一个问题便是新公司的产品策略是什么。
图5 Cloudera产品策略
Cloudera CPO Arun Murthy 是这样说的:Cloudera会在2022年前继续支持CDH和HDP两条产品线,同时也正在开发新的整合产品——CDP(Cloudera Data Platform)。CDP分两个版本,第一版基于CDH6和HDP3,目标是兼容两者现有作业,并做初步整合,算是一个beta版,之后的第二版才是真正的统一版,它将在第一版的基础上把CDH和HDP两条产品线里最好的部分挑选出来并进行整合,给客户更超值的体验。
Cloudera虽然没有明确给出CDP的时间点,但Arun简洁的线框图似乎在极力暗示着时间是一年一版。
但事实远不像画线框图这么简单,CDP除了时间之外,还存在着产品形态的不确定性。
因为CDH和HDP里存在着互斥的部分,只能二选一,比如管理部分,CDH用的自己开发的管理工具,HDP用的是开源的Ambari;再比如安全部分,CDH用的是Ranger而HDP用的是Sentry。所以到底选哪个,怎么选,选完后原来的客户要怎么办,这些都不确定。
不仅如此,CDH和CDP现在又在分别整合对方,比如CDH整合了HDP里的实时处理部分HDF,HDP也整合了CDH的数据科学组件CDSW,这更让人看不懂。
所以Cloudera似乎是迷失在了短期需求与远期规划的三条线路中,还没找到一个真正的收敛方案。
那就更不要说它的客户了。
对于现有客户来说,他们不知道是该在原版本上继续升级还是等待整合后的统一版本:原版本升级虽然简单,但已经明确知道这会在两三年时间内被废弃,到时候还得做迁移,等整合版本吧,又不知道什么时候才能使用。总之是不管哪个决策都不够理想,所以只能再等等看看,这点在第一季度的财报电话会议上也得到了现任CEO Reilly的承认,他表示Cloudera现有客户似乎都因为这个的问题推迟了续费。
而对新用户来讲,更是不知道该选CDH还是HDP还是再等等选CDP。
打个不恰当的比方说,Cloudera让自己的客户陷入了驴子吃草的困境之中,这无异于在给竞争对手创造机会。
这个对手不是同做Hadoop商业服务的MapR,而是全球公共云厂商。
这便是Cloudera的远虑。
现在已经没必要讨论云计算是不是趋势的问题了,大企业都在IT上云,云计算已经成了规律,那么自然而然的,作为IT一部分的大数据也就被云厂商顺手拿走了。
以AWS为例,根据分析师Rishi Jaluria的预测,单单AWS上的EMR(托管的Hadoop)和Redshift(类似Hadoop+Hive的数仓解决方案)在2018年的营收之和就接近$700M,几乎跟合并后的Cloudera总收入相当。如果再考虑其他大数据产品,比如营收高达$1.6B的S3(对标Hadoop的HDFS),那么AWS上大数据收入将是Cloudera的数倍。
更不要说加上Azure、Google Cloud和阿里云的部分了。
公共云厂商正在吃掉一切。
而更可怕的是这根本不是竞争。比如前边虽然提到了有人说S3正在挑战Hadoop的HDFS,但这种讨论只在云的背景下有意义,因为S3不是软件而是服务,如果你在本地自建一个大数据集群,那无论如何S3都威胁不到Hadoop。可一旦企业上了云,云厂商便掌握了主动权,他有各种机会引导客户去使用其自研的产品。
这才是真正让Cloudera头疼的事情。
Cloudera的反击
Cloudera对这一切非常清楚,他也给出了自己的对策,这就是前边提到的CDP。
CDP,全称叫Cloudera Data Platform,是一个混合云/多云的大数据平台,既支持在本地或私有云上部署,也支持在多个公共云上部署——虽然时间还没确定,但根据Cloudera的描述,CDP将会支持AWS、Azure、Google Cloud、IBM Cloud和Oracle,几乎覆盖了美国所有云厂商。
而Cloudera的逻辑是,企业上云已经不可避免,但企业同时想要选择权,这便是多云/混合云的机会,而且比起某个云厂商来说,第三方多云平台会更具中立性,这便是CDP的机会。
从某种程度上来说,Cloudera的逻辑和IBM收购Redhat的Openshift是一致的。
所以CDP是Cloudera现在最关键的一步,如果成功的话,它不仅统一了Cloudera和Hortonworks的产品线,还能让Cloudera在云计算的浪潮之中找到自己的位置,可谓一箭双雕,既解了远虑又消了近忧。
至于Cloudera的CDP会不会成功,我想现在谁都没结论,但有一点是肯定的,那就是在公共云厂商正在吃掉世界的现在,它的问题值得所有技术公司认真考虑。
这是云厂商之间的战争,也是技术公司生存的环境。
【来源:钛 媒体 作者: 郭华 】