用算法对抗假新闻,先给特朗普的Twitter装上核查事实的插件
2016年简直就是传统媒体大溃乱的一年,美国皮尤研究中心做的“2016年媒体生态”调查显示,传统媒体广告收入下降,解雇员工人数增加,和2004年相比,美国报纸数量减少了 100家。2003年到2014年之间,随着纸媒的衰落,专业记者人数减少了35%。
相生相伴的,是读者对媒体愈发的不信任。他们更愿意相信自己的判断,直接到源头找信息。但问题是,个人受专业、精力、时间的限制,并无法达到专业媒体已有的查证事实的能力,也无法查证新闻来源是否靠谱。
特朗普的Twitter账号就是这一现象的绝佳例子,他是言论的第一发布者,但是他的言论有大量不实成分,这意味着他是一个不客观真实的信源。《华盛顿邮报》技术团队近日就开发了一款名为“RealDonaldContext”的Chrome浏览器控件,该控件对每条特朗普的Twitter进行事实核查(Fact Check),指出他言论中不准确或不真实之处。
特朗普Twitter下面出现的《华盛顿邮报》事实核查小灰框
安装了该控件的读者会在原推文下面看到一个灰色小框框,里头简短几句话解释为何这些言论不正确,并附上华盛顿邮报相关报道的原文链接。
当然,这种做法不仅是传统媒体对不实信息及假新闻的宣战,也能潜在为《华盛顿邮报》带来一些流量。《华盛顿邮报》3年前就开始开发事实核查工具,它也是目前和Facebook合作的第三方事实核查团队之一。
2016年美国总统大选之激烈,过程之戏剧化,可以说,社交媒体助力良多。拥有12亿全球用户的Facebook不得不承认,他们的影响力当已经远远超过了一家“科技公司”应有值,毕竟,始于并因Facebook的传播而广泛传播的谣言及假新闻,对大选造成了无法忽视的影响(比如,之前流传的“教皇支持特朗普”的消息就始于它)。
加之,为了最大程度减少假新闻和仇恨言论对明年德国大选的影响,德国立法机构正在考虑设立相关的罚款条款,对Facebook这类社交媒体上传播的虚假新闻或仇恨言论处以每条50万欧元(约合370万元人民币)罚款。德国带头对Facebook施压,可能会带动欧洲其他国家也采取类似的行动。
这对社交媒体来说也是另一种成本。于是,Facebook团队对越来越大的舆论压力终于有了实质性的回应。
继今年11月扎克伯格提出要应对假新闻后,近日,Facebook新闻推送(news feed)版块的副总Adam Mosseri发文详细阐述了他们对抗假新闻/假消息的初步方法/手段:
- 优化举报的功能(easier reporting)
- 标记具有争议的故事( flagging stories as disputed)
- 在可能的假新闻被转发前提醒用户( informed sharing )
- 打乱假新闻发布者的营收模式 (disrupting financial incentives for spammers)
简单来说,Facebook会优化原有的举报功能,当一篇文章被足够数量的用户举报(目前这个数字还是未知)并被标为“具有争议性”,它将被提交给第三方事实核查团队查证(图1)。
图1
如果第三方机构证明这篇文章是假新闻,而用户还想转发,他们就会得到一个“此文被第三方认证为假新闻”的提示(图2)。点击提示框里的“Continue”选项,用户会看得到揭穿该文的原始报道/分析。
图2
这一过程中,最复杂,也是最耗人力物力的环节,始于一篇文章被标为“具有争议性”。由于第三方事实核查人员有限, Facebook正在改进算法,力求从不同维度分析浩如烟海的内容,让机器挑选可疑文章提交给第三方,提高认证效率。
比如,一篇文章是否被大量用户举报?它的转发量是否高得令人怀疑? 它是否有病毒式传播的潜力?搭配着使用的,还有Facebook已经运行了一年的内容分析系统,它通过分析用户的评论来判断文章本身的真实程度。
Facebook内部研究团队也没闲着,他们从新闻来源着手,分析网站域名,找出那些发布最初信息的私人网址,协助第三方查辨消息真伪。如可能让人误以为是《华盛顿邮报》官网“washingtonpost.com”的“washingtonpost.co”。
从以上渠道获取的具有争议性的文章,将被汇总到第三方事实核查机构手中。目前和Facebook合作的团队还有Snopes、 ABC News、 PolitiFact、 FactCheck.org、 美联社。这些机构都是Poynter’s国际事实核查网络的成员,他们赞同并遵守“事实核查者准则”,查证信息的方法与传统媒体原先做法相似。
甄别该文的来源和内容后,当确认它是假新闻,必须标注该文“无新闻来源”,并发布揭穿该文的另一篇文章,注明反驳文的来源。这些被确认为假新闻故事,会出现图2的提示框。但Facebook并不会阻止人们继续传播。由于这项功能现在只处于测试期,仅限部分实用英语的地区用户使用,且第三方人员有限,目前该功能针对的只是那些错得离谱的报道或网站。
Facebook目前对假新闻发布者的惩罚措施是,禁用其使用Facebook的广告服务。他们认为,很多假新闻是受经济利益驱使出现的,它们旨在吸引用户,获取流量和广告收益。如果减少了这种广告收益,就能减少假新闻的出现。Facebook表示,他们也会考虑对这些发布者采取别的措施,但暂时没有公布这些措施的具体内容。
新闻聚合网站,如国内的今日头条,近日也作出了算法的调整,对不实信息和谣言采取了行动。
用户最近5天在今日头条阅读过的内容,如果被证实为谣言,那么系统会通过辟谣机制,第一时间在页面的信息流中为用户展示一条辟谣信息。辟谣内容来源会首先选择权威媒体,以及事件的当事者。
据今日头条副总编徐一龙介绍,辟谣功能需要及其算法和人工共同合作,算法模型通过消息评论和用户举报等渠道的反馈,抓取符合谣言特征的内容,交由人工复审。如果大量用户举报一篇内容为虚假消息,或在某篇内容的评论区中密集出现“假新闻”等类似关键词,机器可自动识别并提交给今日头条审核团队,进入复审队列。
在确认为虚假信息后,系统会立刻停止虚假信息的推荐和展示,并依据平台运营规则对违规账号进行处罚。如果是影响范围很广的不实信息,今日头条的辟谣机制就会走到最后一步,精准推送辟谣内容。对于看过谣言的用户,系统会自动推荐辟谣文章,没看过的用户,系统会根据他的个性化阅读需求正常推荐,不会强推。
但与Facebook不同的是,今日头条没有传统媒体那样的编辑,徐一龙表示,他们有产品、运营、审核的同事,他们每天的重要工作就是调教算法,让算法进行更精准的分发。
但算法真的是解决一切问题的终极答案吗?
近日,Google受到口诛笔伐。因在其搜索框里输入“did the hol”时,竟自动填充了“did the Holocaust happen (犹太大屠杀是否存在)”选项,更糟糕的是,置顶结果竟然是一个新纳粹网站stormfront.org的文章,标题是“证明大屠杀没发生的十大理由 ”,维基百科的解释只排在第二位。
一开始Google想撇清关系,对外声明这种仇恨言论虽然出现在搜索结果里,但并不代表Google的立场。而《卫报》记者随即发现,只要在Google的广告服务AdWords上付费,就能改变置顶的网站。
《卫报》记者付费后改变了搜索结果的排序,她自创的条目“The Holocaust really happened”以广告的形式被置顶。
在越来越大的舆论压力之下,27日,经过紧急修改,现在Google已经完全移除了“大屠杀没有发生”这种搜索结果和相关的问题链接。先不谈技术公司是否需要像媒体一样对平台上的内容负责,从这件事就可以看出,连谷歌的的算法都不完美。
虽然Google否认他们奖励那些点击率高的网站,但他们也并未更多解释目前使用的算法。业界权威建议,Google应该尽可能增加搜索结果排名的透明度,并利用人工复查等方式弥补算法现有的缺陷。
对抗假新闻,我们还能做什么?
Dean Pomerleau现任卡耐基梅隆大学的客座教授。这位在1989年就造出了自动驾驶汽车,并预判到人工智能火热应用前景的AI专家也深受假新闻困扰,于是,他始发了一项名为#FakeNewsChallenge的竞赛,希望机器学习和人工智能界的好手能够开发一种鉴别假新闻,并将之移除的算法。
他个人出资1000美元作为获胜者的奖金,同样出资1000美金的还有亚马逊Echo声音识别系统的开发者Delip Rao。各国好手们纷纷组队参赛,在接下来的6个月之内将相竞用神经网络系统等机器深度学习方法来创建对抗假新闻的算法。
但这样的尝试不一定会成功。
假新闻从出生以来,从未被打败。最早的假新闻可以追溯到1475年的意大利,它存在的目的,就是煽风点火,传播歧视言论和固化偏见,并引发社会暴力行为。1439年古登报堡发明了铅字打印技术后,假新闻随着报纸的兴起而盛行。很多我们耳熟能详的极端历史事件都与假新闻扯不开,比如中世纪的焚烧女巫、海怪传说,甚至是纳粹的反犹歧视宣传,也借用了15世纪“犹太人在祭祀仪式上喝幼童的血”的假新闻。
与假新闻的战争,是人类理性和懒散愚昧本能之间的战争,理智一松懈,假新闻就会趁虚而入。
Delip Rao的计划是,着手建立一个庞大的假新闻数据库,不断收集新数据,训练算法鉴别假新闻,当算法得到升级,它找寻判别假新闻的能力随之增强,越来越多的假新闻被加入数据库中,形成一种正向循环。
就像斯坦福大学建的ImageNet图片数据库,神经网络通过大量数据分析,现已能分辨电子图片中的人脸。但这也有难度,因为假新闻的判定本身需要大量精力与时间。它没有唯一的判定标准,有些新闻似是而非,不实比例可大可小,在辨别消息真假之前,读者不仅要对新闻来源和文中涉及到的历史地理文化背景有所了解,还需要理解文本语义修辞,别错把反话看成陈述。
Dean Pomerleau对此也早有认识。他接受采访时表示,让机器判断虚假信息,相当于要求它们达到受过较高水平教育的人的智能水平,这在短期看来是不会实现的。因此,他们旨在开发的算法无法取代人类,但能帮助人类,快速准确地排查假新闻。
数据时代,假新闻的产生与流量、点击率和利润紧密相关,而科技公司、社交媒体、传统媒体、各种形态的新闻聚合平台和公众即将共同面对的,是一场对抗假新闻的硬仗。算法目前还没有能力检测新闻的真假,而如今的媒体生态下, 或许最合适的方式还是人类与机器协同工作。(本文首发钛媒体,记者/元婕)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App