大数据分析——希拉里邮件门的数据探索
文 | 周宁奕
11月9日中午,不关心也不懂政治的我忽然非常感动,多少,我们在朋友圈的直播里见证了一个以一敌万的故事,这不是武侠小说,也不是好莱坞电影,而是2016年美国大选,几个黑客掀起的希拉里邮件门,多少让川普弯道超车,让看起来稳赢的希拉里最后黯然退场,黑客应该争取了关键的, 超过两位数的的支持率。
11月10日,美国著名的黑客Kim Dotcom在Twitter如是说(他的彪悍人生可自行google)
什么是邮件门
邮件门是希拉里以及周边的重要人物的电脑被黑客攻击/内幕爆料的后,通过wikileaks(维基解密)在网上公开的邮件。
邮件门之前,我没有怀疑过美国的民主与科学, 然而事实上有人的地方就有江湖,邮件门的关键词颠覆了我的世界观,沙特财团的联系、政治现金、邪教、买官、媒体串通……
更要命的是非常可疑的暗杀事件,许多反对希拉里的人都会以非常奇怪的方式集中式死掉
大选期间维基泄密被长城封了,因此我爬取了维基泄密上三份邮件泄密的所有数据>>> 邮件门数据 。如果你对数据有兴趣,可以直接在这里下载,而下一步,我做了个网站 www.hotu.co/hillary 你可以自己去探索这份数据集。
解读网络的基本知识
在我们的理解里,这世界上的事物与关系,正如点与线:点是实体,线是他们的联系,比如人是实体,而2人的电话是是他们发生了一种联系,正如两个点和他们的连线,同理,发货人和收货人是点,物流是线,收款人和借款人是点,交易是线,两边的邮箱是点,邮件是线。
一封邮件是1一个人给n个人的通信,你写邮件的时候可以给一个人,也可以给一个组,所以一封邮件表达的人与人的通信关系,基本是这个样子(发件人为from,收件人为to):
可以想象,许许多多的邮件构成了一个网络, 但因为我们几份数据的采集不一样,网络的构成其实是有差异的,比如说DNC的邮件是是服务器的邮件被复制,还原了一个组织的内部沟通,所以并没有一个特别显著的中心,而podesta和希拉里的邮件,都是自己的邮箱被公开,所以还原了一个人的联系记录,他们就很显然地处于网络的核心位置。
但其实这些网络也是较为复杂的,本质上,这是一个他们社交关系的2度网络:即你给希拉里发了邮件,抄送或发送a、b、c(小黄点),其实a、b、c和希拉里不认识,但确实有关联,大家都在一个以项目作为划分的圈子里,因此之后我们会在网络图里经常会看到这样的结构
力引导布局
某种意义上说,网络关系和形状可以关系不大,比较下面两种网络, 因为点和点的链接没有变,其实本质上是一样的:
然而,两种图给我们的感受是完全不一样的,因此在这个领域,有一种术语叫layout(布局), 简而言之layout就是给点线排位置,影响的是图最后的形状。
假设我们有1000个邮箱,其中的邮件往来关系可能有1000000 = 1000 * 1000种,如果考虑邮件的方向 有 2000000种,然而事实上,人以群分,物以类聚,我们的社交关系、电话联络、邮件往来、交通网络都会形成聚落关系,你可能和你的小学同学是个两两认识的联系网络,身边的同事,兴趣圈的朋友同样是聚集的小网络,而聚落之间的通信则很少,道路网络也是一样,城市和城市密集的路网之间是稀疏而漫长的的高速公路和国道省道……
如果要刻画这种疏密有致的聚类关系,我们可以用力引导布局(Force Layout)算法实现。
不明觉厉的名词背后,往往是简单而朴素的直觉,力引导图的本质是什么,回忆中学的物理,如果一组正电荷在一起,一定是因为同性相斥四散而去,而如果正电荷之间有了弹簧,弹簧之间互相吸引,则会取到一个平衡。那如果弹簧就是邮件关系,我们就可以让互相联系的组织因为引力聚集在一起,而不联系的群落之间则互相疏离,我们就会得到一张网络关系图,比如:
希拉里网络
希拉里是个对科技发展有点淡漠的老人,她热爱黑莓手机,中间手机坏了几次,换完手机牌子还是黑莓,也许因为希拉里经常用手机发东西,所以邮件经常只言片语,其实有用的信息不是很多,但其集中度很有意思。
希拉里三大亲信
如果在希拉里网络关系 点击一下,一张高度集中的网络猛然呈现。
希拉里的邮件两万七,但联系人仅三百多,而且最后归结到3个超级联系人,集中度令人惊叹,比如这是谢丽尔.米尔斯( Cheryl.Mills), 和希拉里发了4400封邮件,外加希拉里回了1000多封,也就是,希拉里1/5的邮件和她发的。
当然这3个联系人里最有名的当属胡马(Huma),如果对邮件门有个大致的了解,应该知道胡马的丈夫Weiner的出轨门,Weiner因为在色情网站上发裸照等等事情被FBI捉拿,然后被爆出电脑里藏了大量希拉里的机密邮件,也是FBI开始调查希拉里的理由之一。
如果我们把这3个邮箱头往google一搜索,信息一下子就丰富了,和生于1947年的希拉里比,三大心腹人种各异,而且都是小鲜肉,最老的也和希拉里差了20岁, 如果算上从podesta邮件组发现的 Robby Mook, 这位哥也是70后。
希拉里和竞选会很少联系
我们知道希拉里竞选会的主席是Podesta,而三大邮件门事件中,丑闻最多的就是Podesta,所以我们可以在搜索框右边选择邮件搜一下Podesta,然而结果极为惊人,这么一位老伙计,希拉里几乎从来不联系,仅有的联系也是Happy Birthday和现在能不能通个电话一类的…
这里面有几个可能,首先希拉里的邮件是美国政府有选择性公开的,所以可能没把Podesta和希拉里的联系公开出来,此外美国政府公开的邮件里只有名字没有邮箱,而去 Podesta的邮件可视化搜索希拉里的几个邮箱,发现只也只联系几个人。
事实上希拉里有无数马甲。为了查清楚明细, 按照网络的资料,搜集了希拉里的一堆邮箱:
在podesta邮件中,除了Podesta本人,发现和希拉里联系仅有的几个人:
这个联系人里其实没几个人,比如三个邮箱都属于 Robby Mook,希拉里竞选会的经理
因此,有个小结论:
希拉里通过三大亲信和外界联系,包括Podesta
我们去 Podesta的邮件可视化 搜索下几个朋友的邮箱,马上就出来了,三大亲信都联系了Podesta,但其实,三大亲信很可能都有好几个邮箱,比如胡马就至少有3个:
Podesta邮件门探微
Podesta的邮件破解源于一封钓鱼邮件,黑客伪造了一个看起来很正常的邮件链接,podesta点击了一下,导致十年来的邮件完全被黑客复制了一份,Podesta比希拉里勤勉多了,十年来邮件数据库dump文件就有数百兆(全是文字啊亲)。
Podesta 邮件总览
Podesta的邮件长达十年之久。
因此,这个聚类囊括了Po主席十年的联系关系,如果我们用颜色区分邮箱的域名,这种分布其实和邮件网络的聚类很接近,相同颜色的点都在一起。
左下方的多是其大学law.georgetown.edu 圈子的邮件 ,圆圈里的邮箱主要是希拉里身边的人,邮箱要不是 hillaryclinton.com 的 要不是hrcoffice.com的。右上角的基本是现任政府的,要么是barackobama.com 的要么是 ptt.gov的。
还有些小的聚落,比如albrightstonebridge.com 是一咨询公司,有意思的是你可以在dnc和podesta的邮件体系里发现好几个咨询公司,这些应该都是政府的智囊团。
搜索名字包含Podesta的邮箱,发现有好多个,左上角可能是他家亲戚的邮箱,他们也和主席发邮件。
而很有意思的是右下角的邮箱podesta@law.georgeton.edu ,这个应该是他在学校申请的邮箱,找他的人一堆从来不回, 因此很可能别人发邮件抄送了2个邮箱,但他是回复在另一个邮箱,而且,联系这个邮箱的人基本不给他gmail的邮箱发东西,我觉得,po主席尽可能用其他邮箱发邮件而不用gmail的。
单独联系Podesta的人是谁?
podesta身边有好多点,这些邮件有几个特点
1、基本上只有直接和Podesta联系的人才会被引力吸到中心
2、大部分点很小,即没有发太多的邮件
其中很多发了很多邮件的邮箱从来就没收到回信,也不是Podesata的高冷,打开其中的一个,发现原来都是推送的新闻,想想也是,这些邮箱发送的信息很多,但从来没有抄送过谁,所以就被吸到中心了。
但还有不少人是Podesta回过邮件的。你想,为啥这些人直接联系了Podesta,却从来基本从来没有抄送别人?,很可能是因为密不告人,如果是公事公办,一般也会抄送下老板什么的,如果我们进入这个区域,是很容易发现一些情况的,
比如(更多资料在这里) :
1、 POLITICO分管政治的主编Glenn Thrush, 有一封邮件是如何为希拉里团队写枪文。
2、美联社记者Julie Pace为了希拉里团队写枪文。
3、赫芬顿邮报记者Brent Budowsky写信给Podesta为自己的文章”The Magic of Bill
Clinton”邀功。Podesta的回复只是一个字”Yep”, 而Brent Budowsky自告奋勇去伪装出一种支持桑德斯的立场,这样桑德斯败选后,更有利于他去说服桑德斯支持者出来投希拉里的票。不过老哥确实挺有耐性的,写了250多封邮件,只回了30几封
4、雅虎记者Katie Couric为希拉里写枪文。这位亲实在和Podesta联系太少了,才写了2次邮件,好不容易才把页面参数调整了(把很小的点找出来,电脑卡成翔了)才找到了这位同学。
DNC邮件门
DNC(Democratic National Committee,DNC) 是民主党全国代表大会,基本是美国总统选举初期的时候开始,而这份数据是这个组织近一年来的所有邮件,据说这份数据是罗马尼亚黑客’Guccifer 2.0’搞出来的:
首先,list一下关键人物,这些身份在危机泄密里面都是有说明的:
DNC的网络聚落像一只昆虫,头部是Jordon Kaplan 和 Scott Comer为主的财务和财政系,他们和许许多多外部的团体沟通,而身子则是DNC内部的骨干,业务为主的人员。
当我们点开头部财务系的周边的关联公司,可以发现主要是服务软件公司,策略咨询公司,金融服务公司,律师事务所等等, 这些公司可能是和dnc有资金上的往来,需要审批。而财务系统其实和公司内部同事讨论比较少,因此形成了一个独立的头部。
如果我们通过内容搜索一个和财务关系不大的词,但是和政治有关,比如china, 就会发现都是业务核心部分的左下角的人在讨论:
而希拉里身边的人,邮箱域名为 hillaryclinton.com 就是左下方的一堆大黄点,他们不和财务系统人打交道,也不是很边缘化,处在网络中处于下部的位置
但身子右下方有个很大的点,周边围绕了一圈外部的公司,这个点是通讯总监Miranda,从他周边的联系邮箱看,他主要联系网络媒体和传统媒体,LGBT网站,教师工会之类的非经济往来的机构,也和dnc内部的同事联系非常多,其邮件活动的覆盖可谓壮观,但其实并不怎么和头部的财务系统打交道:
对这部分邮件,已经有许多很详细的解读 俺的英语太蹩脚,还是自行阅读吧。
更多有意思的探索
邮件只是整个事件的冰山一角,所有的人都深知邮件的危险性,比如一封谈论权钱交易的邮件里,huma说,这种事情最好还是别用邮件说了,也许因此,这些文件极大地激发了美国选民的想象力。
所有的邮件数据都是非常庞大的记录,比如podesta,数据前后长达十年。因此你根据线索搜索许许多多和政治无关的关键字,也可以发现很多有意思的东西,比如搜索 zhang,wang,li,都可以找到邮件里的中国人。
又比如搜索 “alibaba”,也能发现许多报道,而且alibaba总是和Jack Ma的关键词一起出现, 比如马老板是美国人的座上宾,在DNC的一封来自白宫的邮件里,工作人员询问为什么马云出现在白宫, 然后另一个人巴拉巴拉说了一堆马云是奥巴马的朋友一类的话:
Jack Ma, the founder of Alibaba, was spotted leaving the White House. Can you tell us anything about why he was here?
但如果你搜索 “tencent”, “baidu”, 则基本无所获,但如果你搜索 “wechat”,则发现微信的使用已经深入到了白宫的政治社交圈,比如dnc和podesta的邮件里都有好多相关内容,有些外国人在邮箱里留了自己的微信号以便交流(搜了下竟然真找到了某哥们…),也有些微信号留的是宣传的公众号。
如果你搜索和国内政治有关的话题,才发现,原来希拉里以及周边的人都是非常关心中国的政治形势的,里面好多是Cheryl.Mills 发的,这里面非常有意思,当然这里不便多说。。。。。。
我们这辈子应该都没机会去美国从政了, 看着这份大数据集,是不是有种身临其境的感觉?那么 输入 www.hotu.co/hillary 探索这几份迷宫般的邮件网络吧。
End.