别总想着取代谁 Hadoop和Spark结合起来更好用
各种在线报道关于Hadoop作为大数据框架,使人想起关于马克吐温的死亡被夸张报道的引用转载。Hadoop是非常活跃的,众多的机构再他们的大数据和分析方案中继续将它作为一个重要组成部分。
Apache的Spark,一个新的大数据框架, 已被描述为一个替代Hadoop的可能。一些观点认为,Spark由于比旧的框架更容易理解和强大,因此在新兴的大数据和分析项目中更适合。
36大数据专稿,原文作者:Jim Scott 本文由36大数据翻译组-Ark 翻译 ,任何不标明译者和出处以及本文链接http://www.36dsj.com/archives/39645 的均为侵权。
实际上,而不是替代Hadoop,Spark可以作为它的补充,和Hadoop一起作为大数据策略的组成。Spark可以运行在Hadoop之上,利用其集群管理和底层存储,或独立从框架上集成集群管理和存储平台。
Hadoop现在包括YARN集群管理器, Apache软件基金会称之为MapReduce 2.0,或一个完整的MapReduce补充。而Hadoop MapReduce可以有效地用于数据类型如日志文件和静态批处理工作,其他处理任务可以被分配到不同的处理引擎,如Spark。YARN将处理集群资源的管理和分配。
组织可以整合的Hadoop与Spark用于不同目的。一个是集群管理,另一个是包括业务连续性的数据管理。
而Spark是一种通用的数据处理引擎,它适合于各种项目,目前还没有设计来处理与在规模上运行数据处理和分析的工作负载相关联的数据管理和集群管理功能。但是Hadoop及其相关的组件可以有效地处理这些任务。
通过Spark集成Hadoop,组织可以利用许多Hadoop的生产环境能力,如YARN资源管理器,它在可用的集群节点进行任务调度;分布式文件系统HDFS(或MAPR FS):当集群耗尽可用内存时能存储数据,也能在 Spark不运行的时候存储历史数据。这是Hadoop固有的灾难恢复能力。
此外,Hadoop提供增强的数据安全性,这是产品工作负载的关键,特别是在受到严格监管的行业,如金融服务和医疗保健; 结合一个分布式数据平台,使Spark工作负载部署在可用资源的分布式集群中的任何位置,而不需要手动分配和跟踪个别任务。
当涉及到使用这两个平台共同的利益,这决不是一个单行道; Spark肯定能增加Hadoop的价值。例如,Spark的机器学习模块,可以提供更容易的开发在集成了Spark的Hadoop上。
较新架构的最初设计目标,快速在内存中处理大量数据,对于Hadoop集群的能力是一个关键贡献。
毫无疑问,新的大数据框架,如Spark正在蓄势待发。 在2014初 Spark已成为当今的一个 Apache软件基金会 的顶级项目,并且当今是其最活跃的项目之一。
截至2015年初, 据基金会的调查显示,超过500个组织在生产中使用Spark。 其中包括亚马逊,eBay,美国航空航天局,雅虎,IBM和许多其他公司。许多组织正在成千上万个集群节点上运行Spark,该基金会表示,最大的集群有大约8,000名节点。在数据大小方面,Spark已被证明在PB级别上工作良好。
但正如前面指出的,这并不意味着的Hadoop结束,行业研究证明了这一点。据市场研究公司MarketAnalysis.com在2015年6月的一个报告中显示, Hadoop的市场预计到2020年以58%(CAGR)的增长率增长,超过十亿美元。
该报告指出:Hadoop 在商业智能中几乎成为所有的商用大数据解决方案和事实上的行业标准。越来越多的企业会逐渐偏移向Hadoop和它提供的功能。
其中,在近年来,Hadoop市场上出现了有趣的趋势:从批处理到在线处理的转变;MapReduce的替代品的出现,如Spark,Storm和DataTorrent;内部Hadoop的开发和部署;物联网(IOT)和所有它会带来的数据的增长;和特殊企业的出现,都主要集中在提高Hadoop的特性和功能.
尽管出现了一些挫折,“种种迹象表明,Hadoop依然在这里或停留或成长,虽然快速增长期仍是未来数年,”研究人员说。
IT和企业高管明智的考虑,使这两个大数据框架Hadoop和Spark,携手合作,在他们的大数据事业中给组织更大的价值。
End.