解密“黑箱”：看看机器人到底怎么写新闻

网易科技 • 8年前扫码分享

（原标题：解密“黑箱”：机器人怎么写新闻）

近两年来，国内外新闻业界和学界都在热议“机器人新闻”（Robot journalism）、“自动化新闻”（automated journalism）、“算法新闻”（algorithmic journalism）、“计算机生成内容”（computer-generated content，CGC）。还有预测称，“机器人生成内容”（CGC）很快将与“专业新闻记者生成内容”（PGC）以及“用户生成内容”（UGC）一起构成数字化新闻和信息的三大主体。那么，机器人新闻生产背后的逻辑是什么呢？

所谓“新闻机器人”，实际上是一套软件或算法语言（algorithm），它自动采集数据，然后撰写成人类可读的内容。“算法”指包含一系列非常复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。

机器人（算法）是如何生产新闻的？这个过程如一个“黑箱”，公众很难对之进行评判和监督。机器人新闻算法源代码的专利为谷歌专有，同时已被授权给包括“叙事科学”（Narrative Science）、“自动洞见”（Automated Insights）、“耶索”（Yseop）、“CBS互动”以及“未来幻象记者”（Fantasy Journalists）等公司使用。这些公司将谷歌的基础算法投入到具体应用中，因此对公众而言该技术的神秘性也逐渐降低。

解密“黑箱”：看看机器人到底怎么写新闻

为了增加公众对机器人（算法）生产新闻流程的理解，哥伦比亚大学新闻学院Tow数字新闻中心曾以“叙事科学”公司的机器人（算法）新闻为例，对其进行“解剖”。这个流程主要包括个5步骤：1.读入大量结构化和标准化数据；2.测量数据中的“新闻性”；3.找出合适的报道角度，如果有多个角度，则按照重要性排序；4.将报道角度与数据中的具体事实（storypoints）相匹配；5.生成报道文本。

我们在此将以上五步详细解读如下：

第一步，所有机器人新闻算法都需要先读入大量数据。因此，凡是数据丰富而“干净”（结构化和标准化）的领域（如天气和地震预报等）往往最容易开发出具有实用价值的自然语言自动生成系统。在财经报道和体育报道领域，由于数据较为“干净”，因此也是机器人新闻蓬勃兴起的领域。如今，随着传感器嵌入的遍在化，大量“干净”数据出现，因而催生了所谓“传感器新闻”（sensorjournalism）？，而传感器新闻可以被视为机器人（算法）新闻的初级版本。这也说明，机器人新闻是否可行，同时取决于数据的数量和质量。

第二步，数据读入完成后，算法就开始测量数据的“新闻性”（newsworthiness）。一般而言，算法会挑出数据中最“反常”的方面，例如NBA赛事中的数据种类包括：得分总数、投篮命中率、三分命中率、罚篮命中率、篮板数、助攻数、抢断数、盖帽数、失误数、上场时间数、参赛场次数等等。算法会监测和比对历史数据，一旦发现“反常”，例如以上各数据种类中出现的“最高纪录”或“最低纪录”，或者在财经新闻中，股价或汇率变化高于或低于预期（无论这一预期是算法自己计算得出的，还是外部人员提供的），那么算法就认为此数据具有“新闻性”。

第三步，在确定“新闻性”后，算法接下来就会找出报道该新闻的“角度”（angles）。这些角度实际上是人类记者事先已经确定好的报道框架，供算法选择。例如，对体育赛事报道的典型框架包括：“旗鼓相当的拉锯战”、“震撼全场的个人英雄主义”、“同仇敌忾的团队合作”和“后来居上的反击战”等等。算法在选择具体框架时，往往会参照前一步的“新闻性”特征。如果存在多个角度（框架），算法会结合“新闻性”给各个框架打分（1~10分），然后选择使用得分最高的框架。

第四步，报道角度（框架）确定后，算法接着从数据中选择相关部分，即所谓“故事点”（storypoints），如球员名字、得分等，以支持该框架。算法还可以结合比赛场地、球员背景等信息，按照“接近性”原则优先或重点报道相关球员的表现，包括自动从数据库中检索该球员的照片并自动嵌入报道等等。

第五步，对自动生成的新闻稿件从自然语言角度进行润色。这是技术含量最高的一步。“叙事科学”公司的算法会不断地回顾审读其所使用的框架以及相关的支撑性“故事点”，并将句子与人类自然语句相比对和替代。这一步的主要目的就是让算法生成的枯燥文字变得更加可读。有的算法（如“自动洞见”公司的算法）还会在报道文本的生成过程中加入随机因素，并且可以选择多种复杂的叙事语气（如“冷漠的”、“自信的”、“悲观的”和“充满激情的”等等）以让文本显得更多样。还有的算法（如“耶索”公司的）则能结合元数据（metadata），使得基础故事模板能够更加灵活，玩出花样，例如算法能根据主语的单复数而配套使用相应的动词形式，或者变换使用同义词，从而使文本读来不那么枯燥。

数据经由以上复杂的算法处理后产出的财经和体育类新闻报道，大多数读者都无法将其与人类记者生产的新闻区别开来。这说明，尽管机器人新闻也许会让很多人从感情上难以接受，但只要这些新闻能满足我们的信息需求，纠缠“作者是机器还是人”这个问题也许意义不大了。

解密“黑箱”：看看机器人到底怎么写新闻

随意打赏

机器人写新闻机器人总动员美女机器人