【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

新智元编译

来源:varianceexplained.org

作者:David Robinson,Stack Overflow 数据科学家

译者 :闻菲

   【新智元导读】 数据科学家David Robinson分析8月9日Trump的Twitter文本后发现,Trump安卓手机和iPhone发布的tweet差别太大,应该是由不同人发布,Robinson认为,Trump本人使用安卓手机发布带有更多负面情感的消息,iPhone则由选举工作人员负责。

   一般我不发跟政治有关的帖(我对轮询[polling]不是很在行,其实数据科学对政治影响最大的地方就属轮询了)。这周末,我看见了 Donald Trump 的 Twitter,简直拼命叫唤着让人赶紧分析它,因此我不得不出手了:

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   Trump 祝奥林匹克运动员好运的时候,他是从 iPhone 发的信息。而当他辱骂对手的时候,他通常是从安卓手机发的消息。这算不算证据表明 Trump 自己发了一些信息,背后的工作人员又发了一些消息呢?

   其他人考察过 Trump 发 Twitter 的时间线,认为确实是有不同人在掌管 Trump 的 Twitter 账号――而且 Trump 本人应该是用一台三星 Galaxy 手机在发消息。但如何定量衡量这件事情是否属实呢?最近,我在写一些关于文本挖掘和语义分析的文章,与Julia Silge一起在开发R语言的软件包,正好借此机会来分析一下Trump Twitter的数据。

   根据我的分析,很明显安卓手机和iPhone发布的信息是不同的人发布的,这些tweet发布的时间不一样,使用的#、超链接以及转发也各有不同。不仅如此,从安卓手机发出的tweet要更加愤怒、情感更负面,而从iPhone发出的tweet则要相对缓和,同时附带图片。

   总的来说,我同意Twitter用户@tvaziri的分析:我们能够看出iPhone手机发布的是大选策划信息,安卓手机则是Trump自己发布的信息。

   数据库

   首先,我们使用twitteR package中的“Timeline函数”,提取Donald Trump的时间线,

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   清理数据,只看从iPhone和安卓手机发布的tweet(相比网页版和iPad版要简单很多)

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   整体筛选出 628 条iPhone tweet,762条安卓tweet。

   信息发布时间也可以作为用户“签名”,很明显两种不同信息分成两种不同时间

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   安卓手机更多在上午发布,而iPhone发布时间多为下午和傍晚。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   另外一个值得注意的地方是,Trump喜欢用复制别人的tweet加上引号这种方式进行“手动转发”,几乎所有使用这种方式的消息都是从安卓手机发布的。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

在以下的分析中,我会过滤到这些引号里的内容,因为它们不属于Trump自己发布的tweet。

   此外,我们还能看出在共享超链接和图片方面,安卓手机和iPhone的不同,

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   iPhone 发布的消息里,含有超链接或者图片的tweet是安卓手机发布的 38 倍。 这一点也合情合理:iPhone(假定由选举工作人员运营)更多是发布“宣告性内容”,比如

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   而Trump他自己(安卓手机),则更多发布没什么画面感的内容,

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   用词比较

   好,现在我们可以看出,iPhone 与安卓手机发布的tweet有明显不同,那么,它们究竟不同在哪里呢?

   使用我和Julia Silge开发的文本分析方法,我们发现,Trump 的Twitter中最常见的词汇是

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   只要是关注Trump的人,大概对上面的文字都很熟悉。接下来,我们分析安卓手机和iPhone之间的区别,采用取对数的方法

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   安卓手机和iPhone分别最有可能出现的词汇都是什么呢?

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

  • 大多数话题 # 都是iPhone发布的。 细看可以发现,Trump的安卓手机很少发布带有 # 的消息。

  • “参与”(join)、“明天”(tomorrow),以及“下午7点”(7pm)这些词,只会从iPhone发布。 iPhone负责发布活动宣告,比如下面这条“明晚7点在德克萨斯Houston跟我一起来!”

  • 很多“饱含”感情的词,比如“糟糕”(badly)、“疯狂”(crazy)、“软弱”(weak)和“无力”(dumb)基本上都由安卓手机发布。 这一点也支持了我们一开始的假设:安卓手机发布的消息更加“愤怒”。

   语义分析:Trump发布的负面意味更浓

   好,我们从安卓手机和iPhone发布的tweet里已经看出用词情感不同,那么接下来,我们就来量化一下这个不同。

   使用 NRC Word-Emotion Association,这个标准将词语分为 10 个属性: 正面、负面、愤怒、期待、厌恶、恐惧、欣喜、悲伤、意外和信任

   我们想要知道安卓手机使用饱含情感成分词语的几率,比iPhone使用这些词语多多少。由于统计数字是依照出现次数计算的,因此使用泊松测试转变,再用95%的置信区间可视化如下

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   由此可见, Trump 的安卓手机使用与厌恶、悲伤、恐惧、愤怒等“负面”情感有关的词语,要比iPhone多出40%~80%

   再具体来看对这些情感变化影响最大的词语。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   这一结果也证实了,与负面情感相关的词语更常见于Trump的安卓手机消息当中。

   结论

   《纽约客》上关于Trump的影子写手Tony Schwartz的文章中写道,Schwartz专门模仿Trump的口气,达到炉火纯青的地步,以至于Schwartz事后十分后悔,认为自己创造了一个比Trump更加赢得人心的形象。

   跟任何新闻一样,数据新闻的根本也是人的兴趣。我尤其关注的一点是:究竟是谁写了这些iPhone的tweet?

   Trump iPhone 发布的消息大多数都是无关痛痒的公告,但看下面两则tweet,都是从iPhone发布的。 这两条tweet看上去都很像我们所熟知的Trump。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   因此,也有可能我以上的分析是不完备的。

   有可能Trump偶尔会用iPhone发布消息(要么Trump口述,工作人员记录后发布;要么Trump本人在安卓手机没电时会用一下iPhone)。

   但万一都不是,而是有人故意模仿Trump的口气发布的消息呢?

   再看这条(也是从iPhone发布的),内容虽然支持Trump选举口号,但表述却并不像出自Trump之口:

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   关于Trump的精神状态已经有很多人写过很多分析文章。不过,我在这里更想知道的,是那位撰写Trump iPhone tweet的工作人员。他或者她的工作就是模仿Trump,或者用好听的话说,让亿万粉丝跟随Trump。

   这位(或者这些)工作人员是真正100%坚信Trump的理念,还是仅仅身为巨大政治机器中的小小螺丝钉,将接收到的主流观点搅拌后用@realDonaldTrump这一身份输出?

   希望他们不要像Tony Schwartz一样,有一天后悔自己的参与。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   新智元Top10智能汽车创客大赛招募!

新智元于7月11日启动2016年【新智元100】人工智能创业公司评选,在人工智能概念诞生60周年之际,寻找中国最具竞争力的人工智能创业企业。

智能驾驶技术是汽车行业的重点发展方向之一,同时也是人工智能相关产业创新落地的重要赛道之一。为此新智元联合北京中汽四方共同举办“新智元Top10智能汽车创客大赛”,共同招募智能汽车相关优质创业公司,并联合组织人工智能技术专家、传统汽车行业技术专家、关注智能汽车领域的知名风投机构,共同评审并筛选出Top 10进入决赛,在2016年10月16日“国际智能网联汽车发展合作论坛”期间,进行路演、颁奖及展览活动。

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

   如何参加【新智元Top10智能汽车创客大赛】评选

点击文章下方阅读原文,在线填写报名表。该报名表为参加评选必填资料。

如有更多介绍资料(例如BP等),可发送至xzy100@aiera.com.cn,邮件标题请注明公司名称。如有任何咨询问题,可联系微信号Kunlin1201。

   评选活动时间表

创业企业报名期:即日起至2016年8月31日

专家评委评审期:2016年9月

入围企业公布期:2016年10月18日

   微信号:AI_era100

   【真假川普】数据科学家用NLP语义分析拆穿愤怒的Trump

长按二维码关注新智元100,发现中国最具竞争力人工智能初创企业

   点击原文,查看新智元招聘信息

随意打赏

大数据语义分析大数据科学家数据科学家川普的川普语义分析
提交建议
微信扫一扫,分享给好友吧。