Hadoop开源启示录

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

[前言]对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点。不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国 大数据 产业发展的澎湃动力。政府和产业需要转型,互联网公司、新兴的智能硬件公司、传统的生产制造型企业等都希望借力大数据实现更智能更个性化更有竞争力的渴望。然而,我国大数据人才稀缺使得大数据技术发展情况不够理想,这也导致中国在国际社区话语权的缺失。因此,中国需要有更专业更有前瞻性眼光的机构站出来,集合优势资源,对行业现状做出改变,培育优质专业人才。

Hadoop开源启示录
 

2016年8月,清华大学宣布与Hadoop开发社区的顶级贡献者Cloudera公司联合推进大数据人才教育项目,在大数据开源社区方面开展合作。在 Hadoop 生态领域,Cloudera是规模最大、知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一。带着对中国大数据市场的满满诚意,Cloudera创始人、董事长兼首席战略官Mike Olson以及Hadoop之父、Cloudera首席架构师Doug Cutting来到清华,为三百余位现场听众及两千余名在线直播听众讲述了Hadoop的发展历程,并与清华大学软件学院副院长、党委书记王建民及现场的同学们展开了深刻而有趣的对话。

Doug Cutting口述:

Hadoop十年,撬动未曾料及的魔法时代

10年前我开创Hadoop时,存储企业数据和商业数据系统的使用和现在大不相同。对大多数机构来说,企业数据建立如果不依赖关系型数据库,就完全没可能了解数据。但关系型数据库使用起来很昂贵,也不适用于所有形式的数据。那时人们关注很多数据只是聚焦在关键字、任务、业务等(编者注:可数据库领域的查询条件)。世事变迁,Hadoop是如何带来一些改变的呢?

因兴趣创建Lucene,试水开源社区

在大约18年前,当时我在Excite负责做搜索引擎。事实上,我做过多个搜索引擎,从就职Xerox开始,到苹果再到Excite。我喜欢做搜索引擎并且一直有一个想法,用一个新的方式去写搜索引擎,Excite对这个想法并不感兴趣,于是只能自己钻研。我尝试用一种新的编程语言,并认为它会成为一种通用计算机语言,就是当时并非主流的Java。

1998年我完成了Lucene的第一个版本。当时并没有想好能用它做什么,只是有兴趣尝试并在业余时间完成了。两年后,也就是2000年,我还没想好用Lucene能做什么,但我决定不能就这样冒然地成立一家新公司,因为我不清楚财务、人事、合同等公司常规流程。我真心希望人们能用上这个产品,这也是我开发这个产品的动机,我也希望能让更多人发现它的实用性,并从中发现价值。我决定把它贡献到开源社区。

在把Lucene的代码贡献到开源社区的第二年,它被一些小的社区使用,我也因此被邀请加入Apache软件基金会。Apache专注于开源,集合了一群软件界拥有最强大脑的工程师。它追求开放自由,让人们利用软件变得无所不能。在市场需求推动下,我们合作将软件出版成商业产品,但Apache不强调归属于某个社区,而且所有的社区都开放,欢迎新成员加入。Apache社区上所有功能和提供的信息都及时共享并不断更新。从2001年加入Apache到目前为止,这种模式已经得到了令人惊叹的成果。

其中一点,就是随着越来越多的开发者,这种开放模式让人们可以随时随地的使用开源软件,也可以向其他推荐。当需要向老板汇报却又不在办公室时,可以下载之后在家处理,信息也可以实时同步。这使得人们处理程序、改进程序、理解程序变得容易,能随时和其他开发者沟通。如果从事软件开发,你会发现以往只有机会和公司的同事讨论工作,而做开源项目则可以和全世界讨论,有很多表现的机会,甚至可以和自己在业内的“粉丝”去沟通。这种自我展现的方式有很好的激励作用,为了更好地在观众面前展示自己,人们会更努力地工作,让项目日臻完美。

此外,开发者通过做软件会被很多机构了解并认可,你的软件很可能会富裕一个行业全新的生命力,所以每个方案每次改变都要有普适性。要做到为每一个人服务,还要坚持一段时间,用最好的方法做正确的事。开源并不仅是帮助开发者,它更会孕育出一批高质量的软件,让人们会越来越有动力去把事情做好。

从Lucene进入开源平台感受到的第三点,也是最有意思的一点:这是一条突飞猛进的捷径。Lucene对原有的搜索引擎造成了很大的冲击,因为Lucene使用成本很低,且使用效果大大好于通用的商业产品。经过大量的实践与反复改进,Lucene已经成为世界上最受欢迎的搜索技术之一。这并非是因为它创造了一个软件技术的开端——也许有这个因素——但更重要的是它是开源技术,能让每一个人都能参与进来,学习并改进它,享受这个过程。这种开源的方法很强大,能让技术走近更多人,也促使技术变得更好更快。

此外,就像Mike Olson说的,当人们有选择的时候,在企业专用软件和开源软件之间,人们总是倾向于选择开源软件。一轮又一轮迭代后,你会发现开源软件在任何领域都会胜出。

Nutch、GFS和MapReduce, Hadoop萌芽在即

我开始了另一个名为Nutch的项目。在Lucene的基础上将开源的思想继续深化,我们从网页上收集大量数据,基于这些建立一个全新的开源搜索引擎,就像Google、微软bing或其他搜索引擎,收集特定的网页及链接,提取信息,同时处理数十亿的网页请求。一台PC无法存储如此大量的信息,也无法在合理时间内响应,所以我们尝试用分布式系统,Nutch在5台电脑上运行起来。我们也把Nutch资料总结成文本放入开源社区中。

大约2003年到2004年的时候,Google发布了一些相关的研究报告,介绍了他们基于现有搜索引擎做的改进,吸引了我的关注。这些技术成果对我的研发有着十分直接的指导意义。运用这些技术,我们可以将原本需要手工操作的大量繁琐的数据分配和空间管理等操作步骤实现自动化。这两个平台一个是GFS(Google File System),将不同设备所产生的海量数据统一管理在同一个存储空间内,与所有电脑都自动关联,其中一个设备出现障碍,数据不会丢失,而且程序可以迁移到其他设备继续运行,所有数据资源可以共享。这种具备自动关联能力的数据管理是Google实现的一个核心突破,这使我们的操作能力可以从五台电脑提升到成百数千台。同时,Google发布的另一个研究是有关MapReduce的,内容是关于运行在GFS上时,如何用MapReduce进行大规模数据的处理。

Mike Cafarella和我开始基于这两项技术,在开源平台上校准我们原有的程序Nutch。2005年,我们开始有数据基于20台硬件设备在Nutch上运行,这是当时我们能借调到设备的最大数量。我当时在一个非营利组织工作,Mike还没从大学毕业,20台设备已经是我们能筹备到的极限。以这20台设备所支持的开发和测试情况来看,我们意识到这种数据分配的程序存在太多的bug,自动关联很难实现,测试往往以失败告终。当你交叉验证时,你会发现使用两台机器所产生的测试结果不一样。

雅虎助力,Hadoop潜能释放

我意识到这是一个很好的机会,通过开源平台对世界上所有的主流数据处理模式做出彻底的革新,而且基于低廉的硬件成本。如果靠单枪匹马去实现这个宏伟的计划,它会耗费十年甚至更长时间才能最终替代现有的解决方案。我们需要其他帮助。

2005年底,经过一番筛选我把目光聚焦在雅虎。雅虎对我的研究项目很感兴趣,因为当时在做搜索引擎的过程中他们也有类似的困惑,合作研发也会同时帮他们解决问题。2006年,我们加入雅虎,把Nutch分布式数据管理部分重新命名为Hadoop,名字来源于我儿子的黄色毛绒玩具——一只小象。为了新项目Hadoop的运行,雅虎做了大量投入。从一开始的10人工程师团队迅速增加到20人然后更多;机器数量也从一开始的100台,在6个月后增加到数千台。六个月内我们不断测试、开发、运行,逐渐有了成效。

从2007到2008年,切实改进了数据关联能力的技术,其他人也开始使用,这项技术也开始释放富有魔力的潜能。任何人都能下载这个开源软件,在并不昂贵的设备上运行非常大量的计算。Yahoo、Facebook、eBay、LinkedIn、Twitter等公司都开始以Hadoop为基础搭建他们的业务。

未料及的行业渗透 Hadoop创造历史

曾一度以为Hadoop能做的事情已经完成,一切都在按预期发生。但我没意识到的是,所有的传统行业都在酝酿着变革,硬件设备已遍布如此广泛,可用于计算的硬件已渗透到各行各业中,比如卡车、拖拉机、飞机、汽车等。所有这些传统行业都在做数字化转型,这正在产生更加海量更加有效的数据。运用好这些数据能帮助人们更高效更精准的管理生活。起初我并没有意识到这一点,曾以为只有互联网公司、媒体公司才需要Hadoop技术,但Mike Olson告诉我,这项技术已在更多行业领域释放出更大的能量。所以他在2008年创建了Cloudera——第一家专注特定领域的企业,也是迄今为止特定领域规模最大的企业。

2009年,为了参与这个让人振奋的过程,见证更多的人利用我帮助创建的软件技术发挥更大的潜能,我加入了Cloudera。现在,我们见证预言变成了现实,比如汽车生产商特斯拉,通过实时收集汽车动态数据,了解驾驶者的行为喜好,从而改进他们的下一代汽车;航空公司在飞机上安装了数百个传感器,根据回传的数据,优化航线。这真是令人瞩目的改变!甚至在农业、重型机械、铁路、零售、健康医疗等所有我们能想到的行业,数据都在发挥强大的影响力。

Hadoop切实推动了这些令人瞩目的改变的实施。在今天,Hadoop还在日益强大,但我觉得围绕Hadoop发生的事情将更加有趣。在这个长期的过程中,它已经孵化了更多伟大的技能。从单机项目开始,然后有了分布式的文件系统GFS和信息专家MapReduce,搭建的调度程序让人们能够基于Hadoop分享资源,并开发其他类型的引擎,类似于YARN。越来越多的软件技术基于Hadoop衍生出来,比如在线键值存储;比如面向列的开源数据库技术HBase;超越了MapReduce的Spark,在实时批处理上表现更卓越;Impala能以SQL语义,快速查询PB级大数据,Lucene擅长的搜索也被充分整合。每年都有更多的新技术刷新我们的视野。

试想一下,每一个系统的进化迭代,每一个开源项目的建立,都可能带动一次技术革新。其中一些非常有用的技术,越来越多的人会开始使用。这些技术将会慢慢变成所有人认可的通用标准,还有一些不流行地将慢慢被人们遗忘。时代在急速变化,关系型数据库的世界几乎固化了30年,只有非常细微的改变。在Hadoop诞生的近10年间内,技术界发生了翻天覆地的变化。我们见到了许多新的模型,它们支持实时处理、机器学习的新功能,实现新事件的新方法……很多现在无法想象的事都将在随后几年发生。我认为这就是Hadoop留给世界的最宝贵的财富。它平稳运行10年之后,还将影响到未来的数十年。它不设中心控制的强大软件系统孵化了各种不同的项目,有的失败有的成功,但这种由平台衍生的复杂多样性不可能在一家公司的掌控下实现。

未来,为我们而来

今天,来自世界不同地方的我们通力合作,将决定下一个划时代的平台。时间的推移将证实我们的设想。这个平台将更加强大灵活,适用范围更广,功能更多。我们能用它来应对几乎每一个问题,不仅是关系型问题,还能轻松完成机器学习,能搜索、对大数据实时批处理,将有更多的工具箱,让我们在开源平台以更低的成本更好地探索世界。我相信这是一个光明的未来。同时,硬件也在进步,英特尔发布了让人惊喜的新技术,使硬件可以储存更大量的数据,闪存与读取速度更快,成本和以往差不多。当可以在内存里储存PB级的数据并且访问,甚至通过网络访问时,很多事情也会因此改变。我们很快将看到一个全新的时代,一个进步的框架,一个被充分提升的有价值产品。我们将这种理念运用于Impala、Kudu等新产品研发中,但仍有很多事情是我们尚未想到的。

这是一个令人振奋的时代,但我希望各位不仅仅是观望,而是切身参与,加入到开源社区来,甚至是开创一个新的开源项目。我也看到越来越多的项目从中国出现,比如Apache Kylin(麒麟)。我相信在这个新世界里,改变才是常态,新的技术每年都会出现。这些年中国发生了巨大的变化,有很多机会可以应用这些新技术,大数据开源社区将会在中国落地生根。我会很期待看到,有多少人采用它,中国产生贡献,在接下来的几年衍生出越来越多的机会。

巅峰对话实录:

Hadoop未来,事实将碾压今天所有的质疑

人物简介

Mike Olson: 毕业于加利福利亚大学,曾作为Sleepycat软件公司CEO主导开发了全球应用广泛的开源数据库Berkeley DB,后被甲骨文收购,任甲骨文嵌入式技术副总裁。2008年与其他三位合伙人创立Cloudera,将其打造成国际领先的大数据数据管理和分析平台的服务商,2014年12月Cloudera进入中国。

Doug Cutting: 毕业于美国斯坦福大学,Lucene、Nutch等开源项目的发起人,打造了目前在云计算和大数据领域里如日中天的Hadoop,让大数据推动业务的数字化转型有了开源的技术平台。他擅于把高深莫测的搜索技术形成产品并贡献于市场及大众,现任Cloudera首席架构师,同时也在Apache软件基金会董事会任职。

王建民: 清华大学软件学院副院长、清华大学软件学院大数据中心主任,国家科技部中青年科技领军人才,国家基金委杰出青年基金获得者,国家“核高基”科技重大专项总体组成员,国家863计划先进制造领域专家、国家卫计委信息化专家委专家、我国第一个大数据专项“核高基”-“非结构化数据管理系统”负责人;工信部“中国制造2025”:“操作系统与工业软件”工作组组长。

一、 关于HADOOP与Spark、GPU,及商业化未来

1、面对Spark这类新兴技术的发展,以及MapReduce市场萎缩的情况,你们如何看待这种市场变化?

迈克: Hadoop由很多部分构成,第一层是HDFS,完全做分布式存储,此外MapReduce用来做分布式处理;有分布式地面向列的开源数据库技术HBase;Impala可以在支持Hadoop的HDFS系统上,直接做SQL的查询;也有Cloudera做的Kudu这样的新型存储技术。

Spark只是其中的新技术之一,并不是好像全世界都只用Spark。当然,我们如果要去比较Spark和MapReduce,从现在的情况来看,Spark的确会胜出,但基于Hadoop还会不断涌现出更多新技术。

道克: 没错,Spark的确非常好。在实时批处理上表现优异,但它不是全能的,比如它不具备SQL访问查询、Solr和Lucence搜索倒排索引、HDFS、Kudu的数据存储能力等。Spark仅仅是Spark,它不代表Hadoop所有的技术,Hadoop将会孕育更多新技术出来。

2、王建民:计算机和大数据技术都在日新月异的变化,特别在硬件方面,我们看到很多下一代硬件不断的涌现,这些新产品的涌现对于大数据技术的未来会有什么样的影响?

迈克 :像网络、CPU在未来会出现非常多的变化,正确的方法是软件去适配硬件,而不是无视硬件的变化。硬件的升级并不会妨碍未来大数据技术的发展,反而大数据系统会更好的去利用这些新硬件去改变世界,两者不存在替代关系。

过去十年,我们已经看到了很多这类变化。Cloudera有着非常深厚的英特尔背景,我们的很多员工来自于英特尔,英特尔也是我们的投资人之一。我相信我们和英特尔的密切关系,未来会更多的帮助下一代软硬件技术的融合与适配。

道克: 很多人在问我,怎么把GPU和Hadoop结合,这其实是一个错误的命题。Hadoop实际上是基于IO Intensive的系统,它整个系统的瓶颈是在系统的IO上,包括磁盘IO、网络IO,所以它需要解决的根本并不是CPU的问题。未来当IO不再困扰我们的时候,也许那时再来谈怎么用CPU加速的技术解决更多问题更有意义。

像谷歌Tenzing的机器学习系统就可以很好的利用GPU,而不是现在吧的大数据系统来加速。但我相信在这个领域将来会有更多的机会,我们将看到很多数据结构、系统结构,会适应新硬件的变化趋势而发生转变。

3、Hadoop3.0的关键特性

迈克: Hadoop3.0的确会有一些侧重,排在首位的就是多租户技术,将来我们会在Hadoop 3.0的平台上看到更多不同的像MapReduce、Spark这样的技术,可以同时在一个平台上被不同的用户运行,就像Yarn正在做的一样。所以Hadoop 3.0的特点就是支持更多的系统可以更好的运行,更好的去实现多租户这个概念。

另外,Hadoop3.0更多的是适配新硬件技术的改变,比如英特尔新推出的优化存储、CPU的新技术,特别是SSD技术。硬件价格的走低,让我们更有可能去利用这些技术。Cloudera新启动的一个Apache开源项目叫Apache Kudu,这是一个新型的存储系统,Kudu就正在利用这样一些这样的新硬件技术。

道克: 现在还有另一个我们在做的项目,内容是基于HDFS和新型硬件结合做系统复制。这种复制技术,不只能加快系统的速度,还会提升系统的容量。这个项目的开发者就在英特尔中国公司,中国已经出现了很多很好的创新技术。

4、问题分段:CDH商业产品的未来怎么样?

迈克: Cloudera一直在保持这个系统的开源,虽然上面有很多收费的工具,但是这样做的目的并不是阻止用户。因为现在有很多商业软件巨头会利用我们的开源系统,把它作为商业软件,去获得更多的市场机会,去赢取更多的利润。所以我们一方面会保持底层数据存储、处理引擎系统的开源,让用户可以把这个技术用得更好、让系统变得更易用;同时,坚持收费的举措也让我们能够有能力在大数据系统市场上和大型商业软件公司竞争。

开源将有利于更多人参与系统的开发,让更多的大学可以参与学习,让更多的用户可以接受新知识。所以大家看到了Impala和Spark。我很高兴看到作为一家公司Cloudera在大数据市场上越来越多的成长机会。

道克: 开源平台上,Apache仅仅是把所有技术囊括在一起,但Apache上面可能有二十多种不同的打包方式,怎么去安装?怎么去配置?怎么去打包?这些其实对很多用户来讲都非常具有挑战性。所以我们推出CDH Commercial版,已经帮大家把对应的系统打包好了,通过CDH我们会帮助大家更好的管理数据,管理大数据系统。

如果用户愿意去使用免费开源系统这没有任何问题,但是如果用户需要我们的帮助,可以去订购Cloudera的商业版。这就是硅谷现在的开源文化,有越来越多的公司在做开源。开源的东西是免费的,但我们在不断提供增值服务。我们也需要有更多的客户认可这样的服务价值并愿意帮助Cloudera这样的公司在市场上存活下去,跟我们建立更长期的合作关系,支持我们的业务。

二、 关于大数据系统的应用,选择与困扰

5、如果我们现在有一个项目刚开始,面对这么多大数据系统,应该怎么选择一个合适的平台?

道克: 这的确很难,我们可能需要去熟悉所有的系统和工具,需要更多的实验,去测试这些系统。在满足工作负载的前提下,比较在哪个系统工具上工作得更好。但幸运的是,这类测试的确越来越容易了,现在有越来越多的工具可以进行辅助。

但是真正在设计的过程中需要去考虑很多技术细节,比如系统处理速度和系统吞吐的平衡。这个过程更像是一门艺术,而不像一个技术。

迈克: 你选Cloudera就行了,不用去想更多的(哈哈)。

6、王建民:我们现在碰到的很大问题是面对系统的版本升级,用户需要不断去升级他们建好的系统,Cloudera怎么看待这样的挑战?

迈克: 当然,商业版的更新很简单,一键安装新的系统就好了。如果是开源的系统就会很难,因为开源你需要去选择一个适合的文件包,需要自己去重新搭建,需要自己去测试,而这些在Cloudera商业版里都已经帮你做好了。

道克: 如果不兼容,就只能来找Cloudera,这样我们的商业服务就能有发展空间了(哈哈)。

王建民: 看来这样的机会、这样的服务对于Cloudera而言是一个很有价值的业务。

迈克: 我们是一家创新公司,所以首先我们是一群创新者,我们的首要工作是设立未来大数据系统发展的方向。第二件事,我们的确做商业软件,我们会把这些开源系统打包、测试,会在上面做很多工具,我们也会利用它来提供服务。

7、大数据服务的云平台未来应该如何选择?

迈克: 在商业层面上各种主流的云平台Cloudera都支持,我们在北美和AWS、谷歌等都有合作,在中国将和腾讯、百度等有更多的合作,可以看到云服务市场增长非常快。

道克: 如何选择云服务有很多因素要考虑。第一个是经济角度上,到底哪种方式更具性价比,并不是所有的公有云都比私有云更便宜。第二个是安全,虽然我们可以用多种加密的方式解决这个问题,让别人更安心,但是安全永远是影响抉择的重要因素。还有另一个问题,我们需要考虑得非常清楚,通常我们迁移大数据系统是非常昂贵的,所以我们在选择一个云的运营商之前,首先要意识到,这个运营商给我们提供的技术是不是我们需要的。一旦需要在这个平台上进行转换,是不是很容易操作。我能见到的最大错误就是选择了某个云平台之后被吃定,无法迁移转换。

迈克: 我们选择开源有一个非常大的好处,因为底层的技术其实都是一样的,是完全兼容的。如果我们选择了不合适的云运营商,或者不合适的大数据商业软件合作伙伴,我们可以比较容易完成系统迁移。

道克: 还有一个融合的问题。比如企业内部有架构存储一部分数据,同时在公有云上也存储一部分数据,如果我们选择混合云的方式,可能会让我们在处理数据时非常困难,因为这两个架构之间任一方向的数据迁移,都非常昂贵。是否需要把数据放在不同的地方,这也是我们在选择云计算架构时必须要非常认真考虑的一个问题。

8、如何去发掘Hadoop系统的应用性领域,尤其在中国?怎样去发现中国真正的大数据市场?

迈克: 大数据分析 、机器学习等技术发展,都在真实发生着,这些事情触发了我们会有更多的数据,需要更多的处理能力,需要有更多的分析应用,这样正是我们希望看到的市场需求。

2006年我代表Oracle来中国,当时正好是中国“十一五”开端的第一年,中国政府第一次在“十一五”的五年规划中开始强调创新,今年是2016年,是“十三五”的开局之年,中国政府不但强调创新,还强调了创业,我认为中国现在有一个非常好的开端。

对于Cloudera而言,在中国市场需要寻找更多的合作伙伴。我们看到像GM跟上汽合作为全球市场设计新车,中国已经出现越来越多的垂直细分领域,比如像电信、保险,有越来越多的中国公司在使用大数据,成为很好的行业范例。中国大数据的应用前景非常好,已经取得了令人刮目相看的成就。中国市场的体量非常大,增量也会很大,不只是大数据市场,中国在其它细分领域一定会出现更多更好的创新,会孵化出更多大数据的技术与应用。

三、 关于开源及未来

9、事实上,人们对开源还有困惑,很多中国团队的想要致力于开源,你们有什么建议给那些想要参与进来的人?

道克: 第一件事是找到一个恰当的领域,现在的开源项目不是那么容易做好,首先要确保你的产品是有用的。

提问:这个领域是什么?

道克: 这个很难去做预测,每个细分行业都有不同的现实情况,但相信大家是可以找发掘的。第二点,明确领域后,我们要建立对应的大数据系统;第三点,系统做出来之后我们需要有更多的参与者,需要让大家意识到这个系统的价值,并愿意投入去改进你现在做的系统,愿意加入这个的社区团队。这就是我们讲到的开源文化。

这三步做到之后,你的项目规模自然而然就会增长,就会吸引更多的人参与,而且在这个过程中,所有参与项目的人需要非常开放,乐于帮助,更多这样的人加入才会促使这件事成功。反之,如果我们做的是非常狭隘的一个领域,并希望它控制在一个什么样的范围内,通常这样的项目就难以成功。

迈克: 在成为Cloudera的Leader之前,我曾是一个开发人员,做伯克利的数据库。在我的经验中,社区是最重要的。并不是说一个开源社区做出来就是为了免费,关键是有更多人参与。现在中国的团队不只是参与到既有的项目中,有的已经开始去创造自己的新项目。比如说来ebay中国的一群人创造了麒麟这个项目,这个项目现在已经变成了Apache的一个典型项目。所以我非常乐于见到更多来自中国的技术可以贡献在全球。

王建民: 现在中国有非常好的开源文化,很多年轻一代都非常热情,愿意去做这件事情,但苦于我们没有找到正确的门路和方法。清华正在做这方面的努力,清华数科院和Cloudera的战略合作,其中非常重要的部分就是如何帮助中国开源社区的成长,我们也希望通过这样的方式,培养更多的中国本土的Leader,将来他们可以去创建多样化的开源社区,去领导更多的项目。

道克: 需要强调一下,开源并不是一件容易的事情,它意味着我们需要投入更多的努力。我们需要有大量来自全球的有关需求的沟通,可能你的团队在中国,你的需求来自于英国或者是美国,语言障碍会带来挑战。此外,选择做开源,选择一个更多人可以用的东西,一定意味着需要有更多付出。

举一个例子,我和我孩子做饭,可以选择我自己做,让我的孩子做,或者教我的孩子做。让我做饭很简单,但是让我的孩子做饭一定是个灾难。如果让我选择,教我的孩子如何做饭,虽然培养的过程需要花很多的精力,但最终当孩子学会做饭之后,就能一劳永逸。

开源社区也是这样,开始阶段需要投入比我们现有项目更多的努力,但是一旦我们很好的建立一个社区和社区文化,这个项目就会有一种自我生长、自我繁殖的能力。

10、中国另一个现状就是天赋的缺失,你们有什么建议?

道克: 这个的确很难,因为现在大数据技术的变化演进非常快,如果你希望成为一个大数据人才,就必须有非常强的学习新技术的能力。技术变化太快了,只有最好的人才能做到。真正能够解决的方式只有自我不断的学习,以及可以有第三方提供的培训来帮助大家。Cloudera提供了一些课程出来,这个课程对大学是免费的。

王建民: 为了解决大数据人才的问题,中国已经有很多大学开设了大数据教育的课程,清华数科院就有相关的硕士计划,第一届已经有150名以上的学生,来自清华不同院系的师资支持这个课程,但是这个课程到底应该怎么去上呢?

参与授课的学生基本上可以分成三类,第一类是有很强的IT背景,可以做很多数据工程的事情;第二类来自社会信息学的领域,在他的工作中有很大部分就是在处理数据。第三类人是来自传统行业,比如像机械工程这样的领域,他们以前没有足够的IT知识和处理数据的技能。

我们在去年的授课过程中也在不断的调整课程,我们认为更好的解决方法,是理论和实践结合,让大家在学习理论课程的同时有更多的实践机会,能够更好的去解决技能问题。Cloudera提供的这些免费课程将会被引进到清华大数据硕士教育的计划中。

11、大数据技术在中国未来会怎样发展?

王建民: 第一点,大数据在中国的进步会非常好,数据来源会非常多,中国有越来越多的人、越来越多的机器、越来越多的在线交易,都在产生大量的数据。但是在这个过程中我们要改变现在的文化,让决策听从数据驱动。第二点,不要把大数据神化,认为大数据可以做更多的事情,要有耐心把大数据和我们的业务更好的结合起来。第三点,我们需要更多的注意安全和隐私,我们会有越来越多的数据,数据安全实际上是这个发展的前提。第四点,要更多发展中国自己的技术。

迈克: 中国大数据有非常好的未来,清华这边也在做很多和大数据相关的事情,大数据在全球的发展已经非常成功,在中国经济方面、社会方面都会涌现非常多的机会。

道克: 是的,中国一定会有很多的机会,而且中国的技术也已经很先进了,更重要的是现在开源社区给了我们更多的机会去参与学习。

12、大数据技术的未来又是什么样的?

道克: 这个非常难预测,现在不太可能会知道,如果要知道我就去做了。我认为更可能知道的是在座的各位,如果大家有什么样非常好的想法,可以去积极尝试。

迈克: 在中国,小米正在使用Kudu,而Spark社区现在也变得越来越热,这个情况在五年前我们都是见不到的。所以现在开源社区给我们一个非常好的环境和生态系统,像Hadoop这样,可以帮助大家更好的去发展更多新的技术。

王建民: 我们能够看到的是,大数据系统对于中国的很多用户来讲,非常难使用,已有的开源技术并不能被很好的利用起来。在我们实验室现在就有这样一个项目,可以帮助大家更简化的使用今天Hadoop的系统,是一种用机器学习的方法更多去完成自动化的参数、自动化的控制,我们正在做更多的努力。

迈克: 这个方向很好,机器学习一定是未来的趋势,我们应该思考怎么在更多方面结合这项技术。

注:本稿件摘自数据观入驻自媒体—数据派,转载请注明来源。微信搜索“数据观”获取更多大数据资讯。

Hadoop开源启示录

 

责任编辑:陈卓阳

随意打赏

hadoop教程hadoop架构hadoop生态hadoop
提交建议
微信扫一扫,分享给好友吧。