爬虫工程师:应该说我们是大数据行业的“苍蝇”

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

搜索引擎爬虫可以检索你的一切信息,并提供给其他用户访问。只不过因为robots协议的存在,搜索引擎爬虫对自己的检索范围做了限制,所以它是善意的爬虫。

随着电子商务行业的崛起,比价的需求使得爬虫有了更大的市场,不过大家爬别人的同时,并不喜欢自己被爬。毕竟被抓数据会使得自己在竞争中处于不利的位置,并且增加自身的服务器负担,这无异于增大了运维成本。所以大家都觉得:宁叫我爬天下人,休叫天下人爬我。于是又诞生了反爬虫。

后来“大数据”来了,无数互联网从业者从中嗅到了商机。但是这些人手上并没有大数据,于是他们开始用爬虫拼命地抓取互联网上的数据,然后做几个PPT,用他们手中的数据去融资。

庞大数据的需求进一步激励了爬虫程序“野蛮成长”,这给整个互联网带来沉重的负担。于是造成了“反爬虫技术越强,就需要更多的爬虫工程师”的循环……

某虫(化名)是一家公司的爬虫工程师,他这样描述爬虫工程师们的工作:“用蜜蜂来形容我们并不恰当,因为这种‘勤劳’并不被人喜欢。一般公司也不会说自己有爬虫团队。”

“虽然那些抓取的数据都是对外开放的,不存在侵犯隐私、网络安全的问题,但那些服务器资源本来是为客户服务,爬虫作为不请自来、又吵又闹的客人总是不受欢迎的,比起蜜蜂更像是苍蝇,被到处驱赶。”

爬虫工程师:应该说我们是大数据行业的“苍蝇”

爬虫工程师的工作

爬虫最终目的是提供数据,爬虫工程师要做的就是编写一个程序,这个程序会自动抓取并保存下获得的信息。但与数据分析不一样,爬虫工程师一般来说是按照别人的需要去抓取数据,至于数据价值的挖掘就和他们没什么关系了。

但这工作并不像看起来这么轻松,不光要设法绕过别人的反爬措施,还要对抓下来的数据通过技术手段辨别真伪。并且别人的网站一旦改版更新,原有的爬虫程序很可能就不管用了,必须得随着别人的技术迭代不停地升级爬虫程序,更不要说还有各个公司之间的爬虫工程师们隔空“斗法”。

某虫:“在论坛上听到同行分享过这样的故事:说的是他们与竞争对手斗得难解难分,有一天对方在反爬虫的代码里写下注释:‘天天加班,老板给你加工资吗?’工作组的成员才幡然醒悟。随后经过一系列的交流,双方达成和解,当然这一切都是瞒着老板的。大家坐一块谈拢之后,工作就变得容易了很多,都给对方留了后门,方便对方爬自己,反爬虫的工作就变成了一个形式。最多就是在交流群里抱怨:‘你们访问频率怎么这么高?’‘你怎么把接口给关了?’‘你们给的数据是不是有问题?’……”

现实中如果真能达成这样的默契,那肯定是‘双赢’的局面。虽然这个故事更多是逗趣的段子,但在爬虫与反爬虫的斗争中,资源被无意义的浪费却是不争的事实。

当然,某虫也从未担心过自己会在未来某一天失去工作,对于公司来说,爬虫工程师的意义却依然十分重要,只是降低服务器负载这一点就足够了。

爬虫工程师眼中的数据

某虫:“回想最初的自己,也是因为对唯数据论深信不疑才投身到爬虫工程师的行伍中的。跟现在流行大数据一样,只不过这股风吹到了社会大众中去。在我看来,大数据的关键在于‘谁来用’,这比‘怎么用’更重要。”

爬虫的最终目的是获取数据,数据的用途按现在比较流行的说法大致有网络舆情监测、客户全景画像、竞争对手分析、行业垂直搜索等,某虫看来这还是没跳脱传统统计分析的范围。

当然这些和一个基层爬虫工程师没什么关系,抢票、刷榜、找资源之类的项目才是大多数初学者最容易也最喜欢上手的方向,而且这些小项目确实会带来不小的成就感,但是热情衰退之后就发现数据这东西远没有自己想像的那么美好。

某虫:“头一次抓下来一些数据的时候,觉得自己太厉害了,像是自己洞悉了这个世界的所有秘密一样。但随着时间推移手里那些诸如招聘信息、某市租房信息、项目外包信息之类的数据渐渐塞满了硬盘,到底也没产生点经济价值,删除吧也舍不得,毕竟费了功夫的。”

“有次一个(女性)朋友发来消息说:我参加一个比赛,帮我投一下票。稍稍一分析那网站,好弱的反爬虫意识,我乐了。恶趣味被激了起来,花了一会儿功夫用Python写好代码,多线程模拟投票刷起来。不多时,我朋友已经攀升至第一名。”

“很早以前在论坛上看到‘互联网上50%的流量都是爬虫创造的’时我还不相信,觉得夸张了。爬虫是有用,但也不能有这么多需求啊。

随着网络媒体的发展,各种明星、网站流量造假的情况被媒体披露出来,背后的产业链逐渐浮出水面。联系自己的工作内容想一想,现在反而觉得‘互联网上50%的流量都是爬虫创造的’确实夸张了,怎么可能这么少,说90%都是轻的。”

回头看大数据

对于一般大众来说,大数据红利、数据价值化、信息化社会赋能这样的词汇显得虚无缥缈,都是听得多见得少。而从事数据采集的某虫却这样描述:“技术到底只是技术,最后改变社会的,还是社会的行为主体自身。”

虫:“早些时候,‘乐看免费小说’APP就是利用爬虫非法抓取正规网站的资源然后免费提供给观众,再赚取广告费。一个月赚了20多万,这向大家展示了爬虫技术蕴含的能量和反爬的重要性,当然他们很快被抓了并且赔更多的钱。”①

“而现在AI技术的发展让爬虫的攻防战有种山雨欲来风满楼的感觉,但谈不上什么质变,就目前来说其核心还是商业行为。

比如:抓取汽车之家论坛发言,对各种车型的车主做画像;抓取天猫、京东、淘宝用户评价,了解产品在消费者心目中的形象;抓取58同城房产买卖信息,预估房价走势;抓取大众点评、美团网的用户消费信息了解周边变化的口味。

这些归结起来都是在描述一个群体的特征,针对性的做出决策,也就是客户全景画像。虽然在网络爬虫系统的支持下,很多非数据持有主体也可以对客户相关信息进行实时采集、监测,从而发掘潜在商机和预估风险。但这并不足以像‘工业革命’一样改变社会。”

“2008年谷歌推出谷歌流感趋势(Google Flu Trends)时,业内许多人都将其视为大数据淘汰传统分析方式的一个标志。然而随后的猪流感出现完全没有被它预告,反映的事实就是技术的进步并没有达到能改变社会的程度。很多人将现在的困境描述成数据非机构化、数据孤岛或是大‘薄’数据,我也十分认同。

要解决这个问题,之前被经常用来劝告‘技术宅’的那句‘多出去走走’兴许就是药方。

举个例子:前段时间看到新闻,大数据+寻亲帮助了很多失散的家庭找回了亲人,成效显著。但进一步试想一下,如果政府部门的人口数据和医院的数据都能相互‘多走动’,那被拐卖的儿童有没有可能在第一次进医院时就被找到呢?

也就是说,目前的大数据+寻亲只是多了一种技术手段,而不是彻底颠覆了反拐卖模式。当然技术的积累肯定是发展道路上必要过程,但是也可以看出,所谓数据厚度、结构化的问题,还是只能交由社会来解决,技术始终只是为了促成了各个社会主体‘走到一起’。

所以我说,目前的大数据是‘谁来用’比‘怎么用’更关键。”

责任编辑:陈近梅

随意打赏

数据科学与大数据技术专业什么是大数据大数据专业
提交建议
微信扫一扫,分享给好友吧。