用自然语言处理看希拉里、特朗普演讲,各自“什么范儿”
雷锋网按:本文由大数据文摘|bigdatadigest授权雷锋网 (搜索“雷锋网”公众号关注) 发布,如需转载请联系授权。
当地时间10月9日,美国总统大选两名候选人第二场公开辩论将登场,特朗普和他的对手希拉里·克林顿将在圣路易华盛顿大学进行第2场大选辩论,时长90分钟。
不管是演讲或辩论,两位候选人都有自己独特的“演讲范儿”,使用语义分析和自然语言处理分析两人的演讲风格是件有趣的事情。 本文通过自然语言处理分析两人的总统候选人提名演讲,发现了他们在用词和演讲节奏上的不同特点。
数据科学可以应用到很多领域。从图像处理到 人工智能 ,无所不能。其中之语义分析(semantic analysis),在社交媒体监测中非常有用。本文聚焦于政治,而非推特或脸书的评论分析。
今年7月21日,唐纳德•特朗普,在俄亥俄州的克利夫兰举行的共和党全国代表大会的最后一天接受了共和党总统候选人提名。一周之后的28日,希拉里•克林顿在费城接受了民主党总统候选人提名。
在家人和成千上万粉丝的支持下,他们发表了各自的提名演讲。本文对此进行了分析,以期更好地理解这份政治通讯背后隐藏的深意。本文集中在三个特征上: 词汇、风格和节奏 。
深扒词汇
评价谁使用的词汇量最大的方法之一是看演讲者用了有多少独特的词。为此需要先去除英语中没有“意义”的那些词(如“the”,“a”,“of”等)。这些词也叫停用词:具体名单可参照此 链接 。其次,重复词只能计算一次。英语中的名词单复数,动词不同人称时态也用Snowball Stemmer算法做相应处理: 比如Leaders和Leader算一个词,Am和Are也算一个词。
注:想更多了解Snowball Stemmer算法可以参照 这里 。
我们发现特朗普的演讲大概13%的词汇是独特的(全文7460个单词中有965个不同的主干词)。平均每个词重复7.7次。而希拉里有17%的独特词,每个词平均重复约6次。区别很明显:特朗普的演讲之80%只需要480个词,而希拉里需要665个词!多出来38%,意味着我们开始得到一些结果了。
构成候选人演讲稿80%的词汇量
演讲的效率部分依赖于演讲者的风格。本文试图找出两名候选人最心爱的词。寻找“特朗普范儿”或者“希拉里范儿”的词,即找出一个候选人中使用最频繁而在其竞争对手那使用最少的词。比如,“really”这个词,在特朗普的演讲中出现了15次,在希拉里的演讲中仅出现1次。计算的方法之一是计算每个词的“比值比(odds ratio)”。公式如下:
分子是某个词在特朗普词汇表中出现的概率,分母为同样的词在希拉里文中出现的概率。取对数使得我们可以高效的进行排序:当二者旗鼓相当时,对数值为0。否则要么为负(希拉里范儿)或为正(特朗普范儿)。结果如下:
几乎仅见于唐纳德•特朗普的词
几乎仅见于希拉里•克林顿的词
我们注意到的第一件事是,特朗普喜欢用短而常见的词,反复使用:真的(really),很好(nice),非常好(great),问题(problem)。还有一点,我们可以感觉到这位共和党候选人的某种成见:墨西哥,中国,伊朗。总体而言,特朗普关注的似乎更偏向于国际问题。大部分他所提及的外务,旨在煽动恐惧,寻找替罪羊。
而希拉里一方,词汇的范围更广。“希拉里范儿”的词倾向于较为罕见的词。希拉里•克林顿提到“美国”的次数大大多于特朗普:27:5。“希拉里范儿”的词表提示,希拉里的演讲更加着眼于国内事物。她典型的词包括:一起(together),运动(campaign)和努力(hard)。唐纳德•特朗普的名字也多次出现在她的演讲中。
认真的读者会发现,“特朗普”这个词并没有出现在“希拉里范儿”的词表中,这是因为特朗普在他的演讲中,多次提到他自己的名字(10次),因此把比值比拉下来了。作为对比,希拉里的名字只提到了2次:一次在希拉里自己的演讲中(提到她的丈夫比尔•克林顿),一次被特朗普提到。并且,“希拉里范儿”的词“想要(wants)”出现在批评她的对手时(“他想要分裂我们…”,“他想要我们惧怕未来,惧怕彼此”)显然,希拉里谈论了特朗普,而特朗普谈论的是…他自己!
所有人都在谈论特朗普
我们也可以来看看双方都在用的词。它们代表了二者的共识。不出意料,它们是“工作(jobs)”、“国家(country)”、“思考(thinking)”。他们都说了很多次“谢谢”,但方式不同:希拉里特别感谢了一些人,而特朗普主要是在观众鼓掌的时候致谢。
演讲节奏
由于背景的不同,两位候选人都有自己的节奏。评价语言的内在节奏,一个好的开端是:把演讲分割为很多句子,句子再分割成单词。我们发现,特朗普的演讲较长:有625个句子和7460个单词。而希拉里只用到405个句子和6088个单词。就是说,特朗普比他的对手,多用了54%的句子,长了23%。
特朗普的平均句子长度是12个单词,希拉里的句子稍长,平均每句15个词。大部分特朗普的句子都很短:演讲21%由5-6个单子的短句组成。希拉里的句子长度更均匀,12个单词的是最常见的。
奥巴马的句子长度是特朗普和希拉里之和
我们看到了特朗普和希拉里的一个明显区别:特朗普演讲简单明快,而希拉里更加多样、冷静。但是等等!她并不是非同寻常:奥巴马在他的第一次提名演讲中,平均每句话用到25.7个单词,几乎是希拉里和特朗普之和。奥巴马的重复用词也比希拉里少了24%,比特朗普少了42%。我想,这说明,虽然希拉里的节奏要慢一点儿,句子结构要复杂点儿,她的演讲风格与对手仍然非常接近。
写在最后
自然语言处理不是一门精确的科学。只能给我们一些线索和元件,据此来理解演讲。语料库也很短,需要更多的分析来提取更精确的特征。但是从本文的分析,我们发现了什么?
-
特朗普谈论所有的事情是“真的”,“很好”,“非常好”,而希拉里谈论的是如何“为美国”“一起”“工作”。
-
特朗普谈论的是他自己,希拉里谈论的是特朗普。虽然希拉里用到了更大的词汇表,更复杂的句子结构,看起来她或多或少采用了特朗普的说话方式。
-
奥巴马的提名演讲(两次均是)采用了更大的词汇表,复杂得多的句子结构,表明特朗普颠覆性地简化了这样国家级的演讲。