估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

文|唐超

这是本人利用休息时间编写的一篇基于spark进行大数据基础分析的案例文章。本文将会从数据采集,数据清洗,数据分析和数据可视化等四个部分为大家分享。这次的所有分析的数据都是来源于采集的某职场社交平台真实的用户公布个人社交数据,共1100多万数据。文章的涉及的技术内容比较简单,大牛请忽略。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

数据采集

偶然间在使用某职场社交平台时,发现在该平台有非常多的职场精英人事,用户个人信息都有公开的展示出来,而且信息也比较全面真实,同时还有很多发起的话题和匿名吐槽等等,于是就利用下班时间花了一点点编写采集程序来收集这些用户数据、发起的话题,匿名吐槽等信息。

网络数据采集实际上就是所谓的爬虫,实际上很不喜欢爬虫这个名字,比如很多人都不知道爬虫工程师是什么职位,但是说大数据采集工程师,是不是感觉又叼了很多啊。爬虫的主要流程有分析网络请求、编写采集程序、制定优化方案和数据入库等等步骤。

大数据采集程序有很多程序语言可以选择,本人最常用的为python和java,这次使用的python语言,并没有使用scrapy之类的通用框架,而是使用自己积累的一套requests+多线程的完整的爬虫框架,框架有自己很多的提高效率、反反爬虫、去重和分布式等方案,编写起来非常灵活。由于牵扯到工作关系就不细讲了,总之是一个看人脸色活,即使别人不想给你,也要想办法高效去拿。建议大家还是要坚守道德和法律的底线,合理合法的采集数据。

通过上述一系列的流程,自己使用的一台笔记本电脑运行程序,每天的爬取速率在200万左右,共计爬取的1100多万的用户数据和部分平台上的发布的话题和匿名动态。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析 主要的瓶颈是在于网速和机器性能,家里那电信网速不给了,波动很大,同时电脑内存也一路飘红,CPU温度超高,甚至出现了告警。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

数据清洗

首先对网络采集的数据进行分析,确定好进行数据分析时需要用到什么样的数据。由于是用户个人数据,会存在填写不规律,数据缺失等等,同时用户之间也存在数据关联,因此也是利用spark读取hbase中的数据进行数据清洗和数据关联,过滤了非常多无用的用户数据,共计清洗出来了107万多存在关联关系的有效的用户数据。数据清洗的过程比较繁琐,需要结合具体的数据进行清洗,就不展开细说,做过数据清洗的朋友也知道其中的苦逼,下面直接进入下一步。

数据分析

采集到的用户数据主要包含用户id、姓名、性别、头像、是否实名认证、大行业、细分行业、平台积分、就职公司、职位、省份、城市、毕业学校、家乡、关联的人群等等信息,采集到的公共数据主要有发起和参与话题的人及内容,匿名动态和评论的内容。下面就开始基于这107万多的数据通过编写spark程序进行简单的运算,为大家带来各维度的统计分析结果。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(1) 地域分布

  根据采集到用户省份和城市信息进行统计,共有10492人未填数据省份信息,18464人未填城市信息。其中大陆人数有1068263人,港澳台874人,国外848人。下面为大陆各城市用户数分布饼图:

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

由于该职场社交平台主要面向的是职场群体,因此通过上图不免可以看出用户群主要还是分布在发达的省份和城市,北京、广东、上海、浙江和江苏一共占比达到了56%,超过其他所有城市的人数。其中该平台公司所在地的北京达到209215人,占比为19.6%,说明其他城市还是有很大的推广空间。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(2) 实名认证

该平台是支持采用名片等等方式进行实名认证的,这样方便更好寻找和扩展人脉。在收集的数据中进行过实名认证用户有215275人,占比19.94%;未实名认证的有864328人,占比80.06%。通过分析可以看出实名认证的人群相对与其他的职场平台的实名认证占比其他职场设计平台还是高出很多。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(3) 性别

在已收集的数据中统计发现有272021人未填性别,占比为25,填写男性的有588168人,占比填写性别人数的72.83%,女性有219413人,占比27.17%。可见活跃在该平台上用户还是男士居多。男性用户也是比较多的喜欢通过社交平台进行扩展人脉。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(4) 行业分布
爬取的用户行业信息分为大行业和细分行业两个描述,如IT互联网下又细分了研发,运营、产品等小行业。经过统计发现所有行业占比最大的还是IT互联网行业,占比达到了28.32%,该行业的细分行业的研发有57018人,也是所有细分行业最多的,其次从业人数较多的就是服务业和金融行业。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(5) 公司分布

统计收集的数据中发现838880人填写公司,占比77.7%;240723人没填,占比22.3%。就职人数前三甲公司为:百度、中国平安和阿里巴巴(包含支付宝、淘宝),各互联网巨头公司还是一如既往的就职人数最多的,下面带来公司就职人数排行柱状图。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(6) 职位分布

职位是用户自由填写的,各种类的职位特别多,统计起来也是比较繁琐,在此就不再多做分析,为大家带来一个简单的职位统计图。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

经过统计发现收集到的数据中各种经理,总监、CEO和创始人等等高层领导非常多,感觉是人人都是领导的感觉,其中填写经理职位的人占所有填写人的20.94%, 下面为大家展示经理职位词云图,真的是各种经理。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

工程师为占比4.24%,作为一打杂工程师,深深感觉在拖工程师的后腿。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析  CEO/创始人/老板占比3.8%,比我预想的比例要高很多。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(7) 平台影响力

抓取的用户数据中包含了该社交平台对用户的影响力描述,统计发现个其各影响力段也是金子塔状,1~11分以下的用户有512206人,占比47.44.63%,其中影响力为11分人群最多,可见该平台上实际活跃人数实际上并不多,大多数都是吃瓜的群众,看着各种影响力比较大老板和经理们在活跃。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

经过对影响力排序,找出了收集到的数据中影响力分值最高的为一个叫房祖名的小伙子,但是填的信息也是非常少,下面就是该用户填写的个人信息。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(8) 毕业学校

 在这里也透露一点小讯息,本人桂林电子科技大学毕业,因此分析该维度数据时,选取校友们的数据中进行统计分析。

桂电坐落在山水甲天下的桂林,是中国四大电子科技高校之一,有着“广西小清华”之称,学校的通信与电子专业也是华南地区名列前茅,桂电学生的钻研能力和吃苦耐劳特性也是享誉华南地区。在已有收集的数据中共找到1674个桂电校友,下面主要从现在的工作地域,行业分布和性别比例做出统计分析。

桂电校友主要分布地域为广西有686人,占比达到了40.98%,说明大多是桂电学子选择了留在广西发展,其次的人数较多的是广东了,有497人,占比28.61%。下面校友们现在各省份分布图。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

桂电也是一直以来工科实力非常强,特别是电子硬件方面,经统计桂电校友行业中IT互联网类的研发岗位人数遥遥领先其他行业,说明桂电学子还是非常注重自身的研发能力的,本人之前也是一家具有浓厚的研发底蕴的网络摄像头公司从事嵌入式研发工作。下面是桂电校友行业分布图。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

下面不得不来聊聊桂电的痛,那就是桂电妹子实在太少啦,搞基的一大堆,统计发现收集的数据中校友男女比例将近为6:1,也是一个真实的桂电的男女比例了,曾经有句话就是:爱他就让他读桂电,爱她就让她读桂电。下面为性别分布饼图。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(9) 关联关系

在清洗数据过程也发现出来了用户与用户之间的都存在这关联关系,因此在清洗数据时也将此数据洗了出来,借助 Spark GraphX 进行图计算生成一个关联图,如果再借助牛b的数据可视化就形成一张星网关联图,可惜我不会做星网关联图。

Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

由于并不会很好的画星网关联图,在这里随机从关联关系图抽取某个用户数据,绘制了一张简单的星网图用于展示,为了保护该用户信息,下只展示部分的数据。 估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(10) 话题

网络采集程序也采集了该平台上发起话题内容,下面选取了最近1000条发起的话题进行数据分析,首先统计了发起话题和参与话题的时间排布,发现非常有意思事情,竟然大家参与话题最活跃的时间段是在深夜的2点~4点,难道精英人士都是这么晚睡觉的吗?还是睡不着玩一玩。而参与话题最低潮的是在晚上的18点到22点,这段时间大家都在干吗了啊?每天共有3点、8点和14点三个高峰期。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

平台上发起的话题也是非常有意思,很多话题都是当时热点件,很多人都会参加到话题中来发表自己看法,下面统计了参与人数排序前三的话题内容。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

 

 

下面利用jieba中文分词算法对话题和参与发表的内容都进行了分词统计排序,个人觉得如果是简单的分词,jieba是一个不错的分词工具。分词排序完成后,再排除出无效的词语,下面为大家带来大家提到的最多词语排行。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

(11) 匿名动态

收集的数据中还有匿名动态,这个部分内容也是非常有意思,包含大家的是各种吐槽和搞笑话题,有时也是忍不住多看看。在这里也是选择该平台上最近发布的1000条的匿名动态数据进行数据统计分析,首先统计出来了大家参与评论最多的三个匿名动态,其中排名第一的匿名动态,大家表现的还是表现的很有爱,各种安慰这个失恋又失业的妹子。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

 

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析 接下来也是利用jieba分词算法对匿名和参与讨论的的内容进行了分词统计排序,排除了无效的词语,为大家带来提到的最多词语排行。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析
数据可视化

本次数据可视化主要借助于ECharts工具完成的。首先根据需要展示的内容选择合适的图表例程,并研究图表例程中所需要的数据类型和格式,接着借助shark批处理生成合适的数据填写到例程中,就这样一个数据可视化图表就出来了,然后就可以下载成图片。我说的虽然简单,但是实际上做数据可视化的人应该知道这过程有多么的熬人,需要反复的调整样式、大小,颜色,变化数据格式的等等,耗费了我大量的时间。

ECharts开源来自百度商业前端数据可视化团队,基于html5 Canvas,是一个纯Javascript图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。

估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

结语

到此,本次分享的正题部分就已经完成了。在整个从数据采集,数据分析,到报告的编写过程中遇到了很多问题,耗费了我3周左右的休息时间,不过这过程中也是积累很多数据分析方面的经验。以后有时间也会整理和公布出来部分程序源码和采集的数据。

我和我的小伙伴们都不是从事数据分析和机器学习相关工作的,之前有嵌入式,硬件等等工作,没有相关基础,但是我们都对大数据,数据挖掘和机器学习有着浓厚的兴趣,因此开始利用下班时间学习相关知识。

本文由唐超(微信公众号:仁为大数据)向36大数据投稿,并经由36大数据编辑发布。转载请标明作者、来源和本文链接http://www.36dsj.com/?p=75435。

End.

转载请注明来自36大数据(36dsj.com): 36大数据 » 估值过亿的「脉脉」运营数据如何?基于爬取的脉脉千万用户信息的大数据分析

随意打赏

网易过亿数据泄漏大数据估值用户估值估值过亿脉脉估值数据估值大疆估值
提交建议
微信扫一扫,分享给好友吧。