太阳底下无隐私:那些年我们做的微博数据挖掘
新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。
非常开放的微博接口
彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博上所有的数据。
2013年年底,新浪微博官方称拥有3亿用户。但经过我们对全网数据的抓取和分析,发现真正活跃用户不超过五千万人。这也与观察相似,绝大多数父母辈的人,只是听说过微博,但远远没有像现在使用微信一样产生重度依赖。
对用户按地域分组,可以看到,广东,上海和北京的微博用户是最多的。微博用户的数量,基本上和该省的经济总量强相关。尤其是广东,作为互联网普及率超高的地区,占据了全国接近四分之一的微博用户。
通过好友关系了解八卦
我们能够分析好友间的关系。可把每个好友看做一个小球,好友的连接作为一条弹簧,设定初值后,这个好友构成的网络就会逐渐稳定,所谓物以类聚,人以群分。初高中,本硕同学,亲戚同事,有共同爱好的各自聚在一起。甚至两个人如果是情侣或是基友,那么位置也会分外接近。各种八卦在一张图上一目了然。
上面就是主页君微博300多位好友的分析,整个计算过程从采集数据到可视化,需要约10秒钟。小球的颜色代表了分组,大小展示了好友的重要性。在中心位置的人,当然是主页君啦。
如何定义好友间的关系呢?很简单,共同好友和互相留言的数量越多,关系越紧密。地域,性别,爱好和组织也作为重点考虑的因素。两个人之间虽然互不认识,但如果有不少共同好友,连接也会较强。
你可以通过这张图推测此人的爱好,比如放大看一个只有六个用户的小类:清晰的表明了他关注书画鉴赏。
我们还能通过他们的好友和留言特征,分析好友关系的类型,比如是同事,同学,或是情侣,还能一定程度上推演他们是何时和如何认识的。太阳底下无新事,微博之下无隐私。
超大规模网络分析
仅仅分析某人的好友,这太easy了。为了研究巨大社群的关系结构,我们针对海淀的20万个微博用户,进行了超大规模网络分析,绘制出了如下的复杂结构(密集恐惧症慎入):
在海淀这样的高校和科技公司为核心的体系中,通过自动聚类和网络计算,发现小型社团的规模大概在10人左右,大型社团高达几千人,一般是同一学校的同学。很多社团是IT相关的,海淀果然是码农聚集地。
通过3D引擎,我们能够把整个网络以三维的结构绘制出来。你可以成为一架飞机,能在天空中漫游,从不同角度观察好友间的关系。
绽放的花朵:信息是如何被传播的
在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。我们专门对此开发了一项功能:
我们随意以潘石屹的其中一条微博“ 一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国 ” 。 这条微博比较中性,讲的是鼓励美丽中国 (Teach For China)这个公益组织中的一些外国友人,来中国偏远山区进行支教的故事。
之所以选这样普通的微博,是因为潘老大随便发一条微博就上十万次转发,传播量大的微博需要花费太多时间抓取原始数据。
下图展示了这条微博的传播统计。两分钟之后,转发次数达到高峰。一分钟之内被转发了33次。
还能清楚地发现传播者的省份,性别,认证情况和传播层级。内容中性的微博,各省市的比例基本和各省微博用户分布一致。
观察微博的传播过程是很有趣的,为此我们开发了一个能够播放网络的生成过程的“播放器”。转发微博从中心节点生成,按照时间顺序展开,就像盛开的花朵一样。
从这张图中,可以容易看出,潘石屹是微博源头,经过他夫人张欣进行二次转发,任志强又从张欣进行了三次转发,产生的传播能力也比第二次强。美丽中国也通过张欣进行了第三次转发,也有少部分四次,五次和六次转发。
这种技术有三个重要用途
1)评估网络营销的传播能力,很多公司的广告部门会根据传播效果进行付费。
2)微博溯源,一些造谣者产生内容,并故意让一些大号转发,谁造谣谁传谣,一目了然。
3)网络水军分析。据观察,水军微博和普通微博的生成的网络结构图完全不同。能够很容易地发现哪些是水军。
这贪官该落马了:舆情分析
说起舆情分析,就不得不谈论2012年的网红“表哥”杨达才。 原陕西省安全生产监督管理局局长杨达才,在一场悲惨的车祸现场微笑而惹怒网友。万能网友通过他戴的世界名表来找他的“茬”,结果拔出萝卜带出泥,挖出他有多块名表,现金存款1600多万元。再后来,他被有关部门”高度重视“,双规了。
这是一个有趣的案例,我们在之前收集了各大报纸的400万条新闻数据,1亿多条微博的基础上,进行了一次舆情分析。
黄线是微博讨论“表哥”的热度,红线是报刊新闻的热度 ,系统针对每个高峰值,自动打上了和它相关的新闻标签。
微博讨论一共有三个高峰。第一个高峰是8月26日,表哥的微笑第一次被天涯曝光,原创微博数高达四万条。第二个高峰是几天后网络上曝出他有多块名表。一个礼拜后,传统的新闻报刊开始介入。进行了四周的高强度的报道,每天都有两三千篇。
我们特别好奇为何新闻总是在周末处于低谷,进行了不少讨论也没结果,后来问了新闻界的朋友,才知道好多报社周日不上班(汗)。微博的第三次高峰,就是杨达才被双规,但在微博引起的波澜,已经远远没有前两次那么强烈。
我们通过这张图,能够明显发现微博和传统新闻媒体的不同模式。微博来得凶猛,去得也快,是网民草根的狂欢,热度不会超过三天,而且”车祸现场微笑戴名表“的关注度明显比”双规“来得更疯狂;传统媒体慢热,却代表官方意见,在微博冷却后才有所反应,一般不会报道“微笑”,但一旦出现真正的腐败(大量存款)后马上就介入,来得慢,去的也慢。
其实多分析几个案例,就会发现各种贪官落马,假冒产品曝光的模式,都和上面的案例类似。先是微博热度爆表,之后传统媒体介入,马上就有有关部门高度重视了。进而,在对传统媒体和自媒体之间的相互影响建模以后,在理论上,能够大致预测一个贪官在被自媒体曝光后,多久会落马。
他们的观点是什么?分析语义
微博是有观点和情感的,分析其内容很重要。但语义是很难被量化的,受到计算复杂性和时效性的限制,也不可能做到太精细。
首先是话题。微博有针砭时弊,也有娱乐八卦,我们通常用关键词来进行判断。词汇和好友一样,也构成了一个语义网络。”自责“和”羞耻“相似而不同,一旦出现”满五唯一“,”免税“,大概就和楼市相关了。通过这种手段,我们能够对话题进行筛选和分类。比如只关心微博中与”苹果手机“相关的内容。
下图展示了对潘石屹的微博进行话题分类,占比最高的是”文化“,低一些的有经济,政治,教育等(怪我懒,这实际上是把对新闻做分类的模型用在了微博上)。
其次是情感趋向。遇到放假,微博锣鼓喧天鞭炮齐鸣。TFBoy又爆自拍,有人赞美”你们不知道他们有多努力吗?“,有的黑到死(此处省略十万字)。通过分析情感,我们能够分析针对某一话题,大家的观点分布和情感走向。例如网友对某款手机的看法,一定程度上预测其销量。笔者还有一位中科院心理所的朋友,他们成功地通过微博分析,发现抑郁症的朋友,帮助他们走出困境,防止自残行为。
情感有很多种,但我们将情感简化为正向和负向的数值,而且正向和负向的情感可以共存。下图是我们分析某网红从2011年到2013年的情感变化(图表来自笔者的研究生毕业论文)。
结论:应当更关注用户隐私
我们分析的只是信息海洋中的沧海一粟。仅仅通过公开的数据,就能做出大量的分析。
如今人们如此的依赖于手机和各类应用。电商掌握了所有的购物行为,地址,银行账户,电话号码。通信运营商记录了短信电话和位置。各类社交工具存储了用户所有的语音和聊天记录。搜索引擎记录了你每一次的点击动作。滴滴打车明白你的出行轨迹,大姨吗,陌陌了解你的…
总之,如今的互联网,根本没有任何隐私可言。理论上说,通过半公开的数据,你就能了解某人的一切隐私。而这些数据只是冰山一角,大量的暗数据蕴含着更可怕的能量。
彼时,在“开放数据平台”的风气下,各大微博API接口是非常开放的。只要拥有高级访问接口,便可以几乎无限制地访问所有数据。然而棱镜门之后,用户对数据隐私开始前所未有的重视。目前微博对于这种高强度的数据分析,已经不可能了,除非用户授权。
但是,这只是公司不公开了,但那些数据,还存在服务器并被买卖交换。可想而知,企业的”不作恶“是多么重要。
备注
1. 这些工具都是自行开发的吗?
是的,整个软件除了图表使用了第三方可视化库之外,所有的采集,分析和可视化都是自行开发的。尤其是那套可视化画布系统,其布点算法,图形引擎花了将近一个月时间。
2. 现在还能做这些分析吗?
微博接口都几乎都已经关闭。但2013年,我们就进行了一项计划,在四个月内通过十几台机器并行抓取,存储了微博两千万高质量用户的基础信息和社交关系,还有上亿条微博和相关评论。虽然并非实时数据,但针对科研学习和分析已经足够。
3. 还有其他好玩的吗?
其实,在微博中,有很多用户并不是真正的人,而是机器。2013年,我们进行了一项名为”魔法小屋“的计划。通过微博和纯粹的自然语言,你可以方便地控制家里的电器,了解天气,股票,了解朋友的八卦,还能和它闲聊。如今小娜和Siri已经很火爆了,但实际上我们通过不到1000行代码,就实现了可圈可点的语义解析和对话系统。
不少微博用户发完微博之后,很喜欢再把自己的位置标出来。这样,我们就能可视化他的位置,通过他在不同位置出现的模式,一定程度上预测他的位置。下图展示了一位大牛的江南骑行路线,红点下标出了他出现的时间和发的微博:
via:大数据
End.