用Spark解决一些经典MapReduce问题

36大数据 • 8年前扫码分享

用Spark解决一些经典MapReduce问题

文 | 谭杨

摘要

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的map reduce job开发变得更加简单快捷。本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

最大值最小值

求最大值最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code：

用Spark解决一些经典MapReduce问题

预期结果：

max: 1001min: 2

思路和hadoop中的mr类似，设定一个key，value为需要求最大与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

平均值问题

求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

用Spark解决一些经典MapReduce问题

我们让每个partiton先求出单个partition内各个key对应的所有整数的和 sum以及个数count，然后返回一个pair(sum, count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

TopN问题

Top n问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

用Spark解决一些经典MapReduce问题

思路很简单，把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果：

用Spark解决一些经典MapReduce问题

以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreduce job，那么会不会觉得在spark中写起来方便快捷很多呢。

更多spark经典案例介绍期待下回分解。。。

End.

随意打赏

spark streaming apache spark mapreduce数据 spark sql mapreduce spark

TECNO全新发布SPARK 20 Pro 5G，带来5G影音娱乐全方位升级体验

砍柴网 • 9月前

6月17日,创新科技品牌TECNO全新发布SPARK 20 Pro 5G,为SPARK 20系列首款5G 手机。TECNO SPARK 20 Pro 5G搭载极速 5G 芯片和108MP超清主摄像头,采用极简“拉梅曲线(Lamé Curve)“ 相机岛全新时尚设计, 全能
SPARK2024 腾讯游戏发布会：逾30款产品及多个游戏科技项目发布最新进展

砍柴网 • 9月前

5月28日， SPARK2024 腾讯游戏发布会在线上举行，带来34款产品的最新动态，及“数字中轴·小宇宙”“数字藏经洞”“全动飞行模拟机视景系统”“全变源追踪猎人星座计划”等游戏科技项目的最新进展，旨在为用户带来更多元的游戏
SPARK2024腾讯游戏发布会举办游戏科技项目公布最新进展

砍柴网 • 9月前

5月28日，SPARK 2024 腾讯游戏发布会在线上举行。发布会上，在“游戏科技应用”篇章，腾讯游戏分享了“数字中轴·小宇宙”“数字藏经洞”“全动飞行模拟机视景系统”“全变源追踪猎人星座计划”四个项目的最新进展，展现了生发于游戏的游戏科技，在“数字文保”、“民用航空”
TECNO SPARK 20 Pro+ 斩获2024年度法国设计奖两项铂金大奖

砍柴网 • 1年前

近日,2024年度法国设计奖(French Design Awards)首批获奖作品公布。传音TECNO最新上市的SPARK 20 Pro+凭借其精致简约的外观与创新的人体工学设计,斩获2024法国设计奖产品设计类别下的两项铂金大奖,分别为手机、平板电脑和可穿戴设备(Mobile Phon
Check Point 推出中小企业高级网络安全解决方案：Quantum Spark 1900、2000

砍柴网 • 1年前

创新型下一代防火墙可提供高达 5 Gbps 的增强型 AI 威胁防御性能，对零日恶意软件、网络钓鱼和勒索软件的拦截率高达 99.8%2024 年 2 月，领先的云端 AI 网络安全平台提供商 Check Point® 软件技术有限公司（纳斯达克股票代码：CHKP）宣布推出 Check Point Quantum Sp
Check Point推出 Infinity Spark，通过企业级防护和连接能力保护中小型企业

砍柴网 • 2年前

Check Point Infinity Spark 在一个简单的平台上跨网络、电子邮件、办公室、端点及移动设备提供行业领先的威胁防御2023 年 2 月 ,全球领先的网络安全解决方案提供商 Check Point 软件技术有限公司（纳斯达克股票代码：CHKP）今日宣布推出 Check Point Infinity S
腾讯游戏开发首个虚拟探索空间《代号：Spark》，“内测”版本亮相ChinaJoy

砍柴网 • 2年前

作为全球数字娱乐领域最具知名度和影响力的年度盛会之一，2022年的ChinaJoy成为国内首个试水元宇宙的游戏展。 8月27日，腾讯游戏开发的首个以品牌logo命名的虚拟探索空间“代号：Spark”亮相本次ChinaJoy线上展。腾讯游戏以“Spark 无限”为理念，并将“∞”符合融
背靠亿级流量，SPARK2022腾讯先锋打造云游戏互动直播

砍柴网 • 2年前

如何让每年一度的发布会更加深入人心?在今年6月27日的SPARK2022腾讯游戏发布会上,我们就看到了不同往年的一幕: 在今年腾讯游戏发布会官方视频号直播过程中,腾讯先锋为用户提供直播+云游戏的体验方式,让所有在线观看发布会的玩家,都能够在观看直播的同时,一键畅快体验游戏大作。背靠亿
2022 SIGMOD 系统奖花落 Apache Spark，网易数帆燕青贡献获表彰

砍柴网 • 2年前

美国计算机协会（ACM）数据管理专业委员会（SIGMOD）近日公布了2022年 ACM SIGMOD 奖结果，2022年ACM SIGMOD 系统奖授予"Apache Spark"，表彰了 Spark 社区的一众大神，其中包括了Apache Spark 发明者 Matei Zaharia，Datab
传音 Tecno Spark 8 手机在印度发布：指纹传感器位置奇特

砍柴网 • 3年前

11 月 11 日消息，中国智能手机公司传音控股旗下 Tecno 品牌在印度推出了一款 Spark 8 手机，定位入门机型。 Tecno Spark 8 采用了双后置摄像头，提供了一个 1600 万像素的主传感器，具有 f/1.8 光圈，支持 AI 美颜、微笑拍摄、AI 人像、HDR

评论