解密“黑箱”:看看机器人到底怎么写新闻
(原标题:解密“黑箱”:机器人怎么写新闻)
近两年来,国内外新闻业界和学界都在热议“机器人新闻”(Robot journalism)、“自动化新闻”(automated journalism)、“算法新闻”(algorithmic journalism)、“计算机生成内容”(computer-generated content,CGC)。还有预测称,“机器人生成内容”(CGC)很快将与“专业新闻记者生成内容”(PGC)以及“用户生成内容”(UGC)一起构成数字化新闻和信息的三大主体。那么,机器人新闻生产背后的逻辑是什么呢?
所谓“新闻机器人”,实际上是一套软件或算法语言(algorithm),它自动采集数据,然后撰写成人类可读的内容。“算法”指包含一系列非常复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。
机器人(算法)是如何生产新闻的?这个过程如一个“黑箱”,公众很难对之进行评判和监督。机器人新闻算法源代码的专利为谷歌专有,同时已被授权给包括“叙事科学”(Narrative Science)、“自动洞见”(Automated Insights)、“耶索”(Yseop)、“CBS互动”以及“未来幻象记者”(Fantasy Journalists)等公司使用。这些公司将谷歌的基础算法投入到具体应用中,因此对公众而言该技术的神秘性也逐渐降低。
为了增加公众对机器人(算法)生产新闻流程的理解,哥伦比亚大学新闻学院Tow数字新闻中心曾以“叙事科学”公司的机器人(算法)新闻为例,对其进行“解剖”。这个流程主要包括个5步骤:1.读入大量结构化和标准化数据;2.测量数据中的“新闻性”;3.找出合适的报道角度,如果有多个角度,则按照重要性排序;4.将报道角度与数据中的具体事实(storypoints)相匹配;5.生成报道文本。
我们在此将以上五步详细解读如下:
第一步,所有机器人新闻算法都需要先读入大量数据。因此,凡是数据丰富而“干净”(结构化和标准化)的领域(如天气和地震预报等)往往最容易开发出具有实用价值的自然语言自动生成系统。在财经报道和体育报道领域,由于数据较为“干净”,因此也是机器人新闻蓬勃兴起的领域。如今,随着传感器嵌入的遍在化,大量“干净”数据出现,因而催生了所谓“传感器新闻”(sensorjournalism)?,而传感器新闻可以被视为机器人(算法)新闻的初级版本。这也说明,机器人新闻是否可行,同时取决于数据的数量和质量。
第二步,数据读入完成后,算法就开始测量数据的“新闻性”(newsworthiness)。一般而言,算法会挑出数据中最“反常”的方面,例如NBA赛事中的数据种类包括:得分总数、投篮命中率、三分命中率、罚篮命中率、篮板数、助攻数、抢断数、盖帽数、失误数、上场时间数、参赛场次数等等。算法会监测和比对历史数据,一旦发现“反常”,例如以上各数据种类中出现的“最高纪录”或“最低纪录”,或者在财经新闻中,股价或汇率变化高于或低于预期(无论这一预期是算法自己计算得出的,还是外部人员提供的),那么算法就认为此数据具有“新闻性”。
第三步,在确定“新闻性”后,算法接下来就会找出报道该新闻的“角度”(angles)。这些角度实际上是人类记者事先已经确定好的报道框架,供算法选择。例如,对体育赛事报道的典型框架包括:“旗鼓相当的拉锯战”、“震撼全场的个人英雄主义”、“同仇敌忾的团队合作”和“后来居上的反击战”等等。算法在选择具体框架时,往往会参照前一步的“新闻性”特征。如果存在多个角度(框架),算法会结合“新闻性”给各个框架打分(1~10分),然后选择使用得分最高的框架。
第四步,报道角度(框架)确定后,算法接着从数据中选择相关部分,即所谓“故事点”(storypoints),如球员名字、得分等,以支持该框架。算法还可以结合比赛场地、球员背景等信息,按照“接近性”原则优先或重点报道相关球员的表现,包括自动从数据库中检索该球员的照片并自动嵌入报道等等。
第五步,对自动生成的新闻稿件从自然语言角度进行润色。这是技术含量最高的一步。“叙事科学”公司的算法会不断地回顾审读其所使用的框架以及相关的支撑性“故事点”,并将句子与人类自然语句相比对和替代。这一步的主要目的就是让算法生成的枯燥文字变得更加可读。有的算法(如“自动洞见”公司的算法)还会在报道文本的生成过程中加入随机因素,并且可以选择多种复杂的叙事语气(如“冷漠的”、“自信的”、“悲观的”和“充满激情的”等等)以让文本显得更多样。还有的算法(如“耶索”公司的)则能结合元数据(metadata),使得基础故事模板能够更加灵活,玩出花样,例如算法能根据主语的单复数而配套使用相应的动词形式,或者变换使用同义词,从而使文本读来不那么枯燥。
数据经由以上复杂的算法处理后产出的财经和体育类新闻报道,大多数读者都无法将其与人类记者生产的新闻区别开来。这说明,尽管机器人新闻也许会让很多人从感情上难以接受,但只要这些新闻能满足我们的信息需求,纠缠“作者是机器还是人”这个问题也许意义不大了。