Cloudera和Hortonworks的开源之战
文 | 飞总
我写过一场大数据界的大撕逼,在Google和图灵奖获得者Michael Stonebraker之间。具体的情况可以参考这里。这场大撕逼发生在2008年,可谓惊天动地。
BigData的圈子里有另外一场大撕逼,发生的时间是2011年,这场撕逼的主角是Cloudera和Hortonworks。撕逼的起点是Owen O’Malley这位前Yahoo的Hadoop团队的重要成员,后来的Hortonworks的Founder之一和Hortonworks的Fellow,撕逼的起因是一篇博文:The Yahoo!Effect。
这篇文章长话短说就是说开源阿帕奇多牛逼啊,经过我本人的分析发现,其实这里面大部分的贡献主要是Yahoo这个活雷锋干的。其实这话真心是没有什么错的,Hadoop也好Zookeeper也罢,都是Yahoo先做出来捐献给Apache基金会的。这张神图大致反应了Owen想要表达的。图里面展示了Yahoo和其他公司这些年来对开源的Patch的贡献。
但是Cloudera不干了,他们辛辛苦苦的挖来了Doug装点门面,以便自己显得比较正宗一些,这图不是打脸说他们是不劳而获的拿了Yahoo的东西卖钱吗,对他们的形象其实不太好。Cloudera的辩解特别的简单,就是你甭按照那些程序猿原来在哪个公司干活来反应他们对项目的贡献。
贡献是程序猿给的,不是公司给的,公司给的当然只是发钱而已。所以大概的意思是Doug今天已经在我们这里干活了,那么他被Yahoo付工资的那些时日里面的活,当然也算是我家的,颇有强词夺理的风范。被Cloudera修改以后出来了下面这张神图:
当然此图一出,Cloudera迅速成为了第三个贡献大的,第一第二依然是Hortonworks和Yahoo。不过这样看起来,起码Cloudera没有那么难看了。非常有意思的是,Hortonworks里面最不爽Doug的那个Eric,就是2013年前先后做了CEO和CTO,后面又下岗的曾经的Doug的上司的Eric,大概是自己觉得不爽了。于是他又来了一篇博文。大概的意思是,你这样搞也是不对的,patch和patch的大小也不一样吧。得,干脆,咱来看看到底谁提交了多少行code吧。于是我们从Eric的博文上又来了这张神图:
这场撕逼从某种程度上证明了Yahoo的确是Hadoop项目最大的贡献者,活雷锋当之无愧。然而Hortonworks作为一个独立的公司出来以后,其贡献得东西和Cloudera来比,其实凭良心说,多一些,但是也多的有限。Cloudera也不是说啥都没写就在那瞎bb。
但是这场撕逼其实是在争夺core Hadoop的控制权。于是近两年的时间里面Hadoop基本上没有什么本质的变化,大的feature基本没有多少release,这样一来其他人看不下去了,就天天叫着Hadoop的新版本怎么还没来,我们没空看你们撕逼。
结果来说,因为一边是Yahoo的原班团队,一边是挖了Doug这个Hadoop的首创者,还一度占据了Apache的老大的位置,总而言之是没有谁真的赢了,Hadoop的PMC里面大致上今天就是Hortonworks和Cloudera各占一半的局面。只是这场撕逼留给大家的,尤其是其他基于Hadoop性能开发新的开源项目的人,除了呵呵,真心没有任何其他的事情。
我想也正是因为这些人在这段时间里面没好好干事,才给予了诸如Spark这样新的平台成长的机会。今天的Hadoop平台的竞争就更加的艰难了,我想一个新的execution engine或者storage engine要想在今天环境下脱颖而出,几乎是不可能的事情了。这么来看Spark的命其实也挺好的,Flink的命就差一点了。
36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » Cloudera和Hortonworks的开源之战