机器人写稿这事,BAT和今日头条已打得不可开交!
上周五, 今日头条 估值超过120亿美元的消息被刷屏。在内容市场的红海里,身价暴涨的今日头条已成为一条让BAT望而生畏的“大鱼”,寡头围剿和壮士突围间充满变数与可能,技术优势牵一发而动全身。
一项内容市场竞争与人工智能技术结合的产物——写稿机器人,将视线聚焦在百度、 阿里巴巴 、腾讯、今日头条的新战役中,而逐渐起势的机器写稿产业本身也已成为战役中尤为重要的一环。
在深入调查“机器写稿”产业的过程中,意料之外的两大既成事实让我开始重新审视人工智能和内容生产。这两件事实分别是:
1)在垂直领域的报道中,写稿机器人已经被高频率采用;
2)腾讯、今日头条、阿里和百度,是国内写稿机器人技术应用最早和最为成熟的平台。
了解人工智能技术在专业领域的应用现状,能够更为直观地感受技术革命临近的前奏。更进一步,其在内容领域落地的深远意义在于,将为互联网上游资讯生产流程和数据应用方式的带来颠覆式影响。
而在当下,这一关键阀门就掌握在BAT三巨头和估值超120亿美元的新劲敌手中。为此, 智东西 特采访到腾讯内容机器人项目负责人、腾讯财经副总监刘康, 阿里巴巴 大数据价值挖掘专家、 第一财经 首席数据专家汤开智博士,今日头条相关专家,行业资深人士,进一步解构这场互联网内容和数据重组的入口之争,窥探背后更大规模的文本范式生成市场。
注:近日有消息称百度推出了其智能写作机器人Writing-bots,但据笔者调查暂无可查证的实际应用案例,故此文中暂不做讨论。以“度秘”的赛事解说功能为参考。)
一、 文字背后的机器人
写稿机器人,并非指实体的机器人本身,而是将机器自动生成文本,产出内容的系统抽象化和拟人化。具体而言,写稿机器人多以特定的信息库为基础,通过一定的筛选、分析、运算等信息处理手段,将信息进行重新组合、排列,并套用事先设置好的写作模板,最终输出新闻报道。
“机器写稿”,背后涉及数据挖掘、自然语言处理、机器学习、搜索技术、知识图谱等多项人工智能技术。套用一般的人工智能的要素模型,“特定的信息库”即支持该项技术的“大数据”,“针对文本信息的重组、排列”即为该项产品背后的核心算法。从早期的人工设定模板,到深度学习引入后的机器自我学习和模板优化,“写稿机器人”本身正在不断进化。
机器人介入写稿最早起始于美国老牌报业《华盛顿邮报》。早在2012年年末,《华盛顿邮报》就启动了名为“truth teller(吐真者)”的实时新闻核查项目。它能全程记录新闻报道中的文字、语音等信息,随后与“打假”数据库进行对比,一旦发现异常便会发出警报。
从2015年开始,中外媒体的“写稿机器人”走进版面,开始自立名号。《纽约时报》Blossom、《华盛顿邮报》Truth Teller、《洛杉矶时报》智能内嵌模版、《卫报》Open001、路透社的Open Calais、美联社的Wordsmith六家国际顶级媒体设立各自的机器人服务系统。
在国内,腾讯于2015年8月率先推出Dreamwriter写稿机器人。随后的一年,今日头条xiaomingbot、 第一财经 DT稿王、百度度秘解说相继浮出水面。腾讯、阿里巴巴、百度、今日头条,四方割据的局面正式形成。
在信息流市场, 第一财经 能够代表阿里巴巴的战略布局。在于2015年阿里的12亿元购入第一财经集团30%股权,随后也将旗下的大数据价值挖掘专家汤开智博士调任至第一财经,任其首席数据科学家,为其自动/辅助写稿产品提供技术支持。
二、四大平台的机器人赛稿
为呈现一个更加具象的写稿机器人市场,笔者集中体验了腾讯、今日头条、百度、第一财经四家产品在用户界面、内容呈现和出稿数量、效率等方面的表现,并对比分析各家在产品布局和应用领域的思路与特点。
1)产品特点与应用状况
从上述图表分析中可以看出,上述四家的“写稿机器人”产品主要还处在自研自用阶段,主要用于自家媒体平台的内容产出和分发。此外,第一财经首席数据科学家汤开智向智东西表示,旗下的DT稿王产品现还应用到电商平台“千牛”的资讯版块。
覆盖领域以体育赛事、和财经类新闻为主,多以短、平、快的处理方式产出赛事战报、快讯等。其中腾讯在新闻内容覆盖面上最广,其产品的对接平台包括腾讯财经、腾讯科技、腾讯体育等。第一财经集团因其更强的媒体属性和广泛的产品渠道,内容分发领域更更广,包括媒体产品端、微信内容推送、电视新闻等。
在报道形式上,赛事报道更倾向于图文结合的方式,图片采用自动匹配的模式。当然在面向不同终端和产品时,报道风格可能有所调整,比如在腾讯体育移动端中,赛事报道就是以纯文字方式呈现;而在腾讯新闻客户端,则保留了完整的图文内容。
在产稿量方面,各家并没有给出具体数值,笔者结合页面呈现数量和参考值进行统计。腾讯因其覆盖领域最广,在有效产稿量上占据一定优势。“机器写稿的机制是大规模地写,最后用不用由人工编辑、CMS(Content Management System、内容管理系统)进行判断”,腾讯内容机器人项目负责人、腾讯财经副总监刘康介绍。
第一财经则主要以股市异动为新闻切入点,报道更频繁。”长报道的使用频率相对低一些,最多一天一篇,或者一个月一篇”。
需要说明的是,将只是用于“赛事解说”的百度度秘平台纳入到分析对象中,主要原因在于度秘的“实时图文内容呈现+音频播报”的产业化程度已经达到机器写稿的程度,其背后的技术原理也十分相似。或许是百度平台本身缺少媒体属性,抑或是作为内容分发平台不适合自产出内容,百度并没有在前端用新闻的形式呈现。
2)用户界面特点分析
以上分别是调用第一财经“7*24小时看板”、度秘APP“度秘直播篮球赛”、今日头条“Xiaomingbot”头条号作者专栏、腾讯新闻搜索“Dreamwriter”呈现的不同界面,统一以移动用户端进行比较。
从报道形式和内容丰富程度来看,机器写稿与人类已经无异。在标题处理上,“击败雄鹿”、“创新高”、“奇才”、“遗憾”等用词已经脱离机械式的比分呈现,带有个性化的媒体报道属性。
滚动式的股票类财经快讯则更强调时效性和数据准确性,在这个维度上,机器胜过人类。
3)内容呈现特点分析
在报道形式与风格上,各家根据用户特点进行了不同的呈现。腾讯Dreamwriter、今日头条Xiaomingbot采用图文结合得形式进行报道,Xiaomingbot在图片与现场感呈现上更为丰富,Dreamwriter则更强调比分和细节。在文章框架上,两者都对赛事亮点和整体局势进行了提炼,而不是简单的陈述数据。
百度度秘的解说以对话框的形式呈现,能够为用户提供实时的赛事战况直播,并且配以部分动图和音频,表情和语气词的也很到位,更加拟人化和形象化。
第一财经,作为一个更加专业和垂直领域的媒体平台。除去中文内容呈现,同时进行了英化处理,“中文财经模板很大一部分被翻译成英文模板,省去了内容翻译的成本,在一财全球使用”,汤开智博士介绍。
总体而言,在写稿机器人这块新业务上,BAT三家与今日头条的技术和产品差距并不大。比较遗憾的是,百度并没有将其背后的技术整合出完整的媒体产品,提到度秘的“赛事直播”功能很多人并不知晓。
究其背后的原因,可能还是百度本身缺少媒体平台基因,聚焦在用户的被动搜索与广告业务。不过,另一面,今日头条的百度化却比想象中快。
三、外行看热闹 内行看门道
对于一个曾经视“人工智能威胁论”为笑话的人,突然间发现,机器人已经侵入到自己所擅长的领域,内心多少有些惊讶和恐慌。不过,人工智能的更大价值还在于了解之后为人类所用。“我个人偏向中性的认知,机器写稿的确能够取代一部分人力,但只是冗余的、低技术门槛的人力”,腾讯财经副总监刘康认为。
在与第一财经汤开智博士的交流中,他认为机器写作的研究主要围绕三种典型模式,“逻辑由浅入深,从精确到模糊”:
1)第一类是基于数字进行事实陈述,并进行简单逻辑分析的文章,比如二级市场的监控、体育赛事的简讯;
2)第二类是根据每类稿件的信息要点,对信息源进行针对性的信息提取,把非结构化的文本转为结构化及半结构化的数据,再根据不同的规则把信息要点组合写成单点内容;
3)第三类是单点内容的关联生成,此类稿件能弥补单点内容信息量单一的缺点,并为受众尤其是投资者,及时关联专家对基本数据的解读及评论,生成更有深度、更立体、更综合的稿件。
在写稿机器人产品中,背后技术支持最为明确和清晰的是今日头条的“Xiaomingbot”,它是由头条实验室与北京大学计算所(万小军团队)联合研发而成。今年2月今日头条还挖走了前微软亚洲研究院副院长马维英,担任其负责人。
在抽取式文本生成研究领域,北大万小军老师于关于采用特征工程抽取句子的论文《Towards Constructing Sports News from Live Text Commentary》在ACL2016引起了广泛关注。
今年初,万小军老师还以技术开发团队负责人的身份,帮助南方都市报完成了写稿机器人“小南”的研发。
从产品演进路径来看,一代写稿机器人语言偏向生硬,句式较为单一。在优化后的产品中,具备更高的语言表达和逻辑思维能力,以及图文信息处理能力。以下是写稿机器人的简化版工作流程:
现在大家都还处于技术过渡的过程”,业内人士表述。前期产品以简单的结构化自动生成为主,将一些数据嵌入进去,利用人工模板。因为机器学习和数据库的完善,大家希望能够借助机器的自主学习功能,“
比如,跑一百万篇文章,机器可以自建模板”。但在现实应用中,因为垂直、专业领域的文章具备鲜明特点。自然语言理解技术有局限,目前机器读取数据填充格式化模板是最成熟但也是最没有技术水平的方案,写稿机器人产品仍主要用于体育和财经类资讯 。
体育和财经文本信息较少,数据信息多,“每周几十场NBA、足球赛、棒球赛等,以及每天全球主要市场上万家上市公司的各种披露信息和股票涨跌”,从这个角度上说,人群结构化程度较高,垂直化需求强烈。
四、 商业价值 所在:以一当十五
技术落地的最终诉求来自产业所向和 商业价值 。“
多、快、好、省”,是腾讯财经总监刘康对于机器写稿红利的提炼。
他并未给出写稿机器人准确的产出效益比。“一般来说,机器产出的稿件30-50%,会各个频道的采用,最终呈现在页面端”。实际上,写稿机器人的成效容易量化,基于其产出的稿件量或者字数,以量化成普通人力的规模。其核心的“快”,包含两个层面,一是响应速度,写稿机器人平均可达到1分钟甚至更快产出快讯;二是分发速度快,与后台无缝衔接,缩短至各平台中间流程。
作为技术输出的第三方,面向B端的服务集成是另一种可循的商业模式。面向媒体企业收费,“例如某科技媒体平台一年人工费用为900万,采用自动写作或者辅助写作的产品,可以提高员工绩效和产出,减少其人力成本”,从业人士介绍,写稿机器人可以24小时在线,而人工还需要轮班和调休。
在与阿里巴巴驻第一财经首席科学家汤开智的交流中,他更为系统地介绍了写稿机器人所产生的效益提升,主要包含以下三个方面:
1)机器稿件产量的提升。“从去年8月25日开始记录到现在,”一财全球“总共产生19604篇稿件。考虑到机器写稿的简短性,平均每篇稿子64.5字,总字数为1,264,458字, 平均每篇稿件约64.5个单词。这相当于同时期一个15人编辑团队人工监控股市写稿的总产量。
综合分析,考虑到目前机器稿件的单调与重复等因素,稿王机器稿件的加入,相当于为一财全球增加了一个3个人的编辑团队。
2)成本下降和资讯反应速度的提升。基于沪市1040家公司、深市1420家公司的即时监控和异动报道工作,至少需要15名以上的编辑进行即时监控,每人要同时监控100多只股票,1名翻译即时翻译。并且,股票的异动分成多种情况,人反应和分析的时间将带来5~10分钟的延迟。
因为写稿机器人的使用,这些稿件在没有人工参与的情况下快速生成,延时也降低到1分钟。此外,写稿机器人还能针对大盘、板块进行着监控和稿件生成。
3)流量的贡献。根据Google Analytics汇总报告中显示最近1个星期, 3月20日到3月29日之间机器稿件流量占到一财全球全部流量的25%,相对于之前有显著提升。
五、新闻之外 更大的文本范式“蛋糕”
利用写稿机器人的工作思路:文本分类,文本中的信息提取,文本总结,基于逻辑的自动写作方法在“文本范式”的领域,均具备可迁移的想象空间,如法律、合同、电商数据等领域。
电商模式是来钱比较快的”,业内资深人士分析,并提供值得借鉴的方向思路。电商数据多而庞杂,对于当下盛行的电商导购 返利网 站而言,UGC(用户原创内容)需要大量的人工审核,虽然编辑自己写的少,但是仍然需要花大量人力在审查上。
机器审查又会过滤掉一些很有价值的商品推荐。所以建立一个机器写作的导购网站,UGC或者机器只要去发现一些有价值的线索就好,“具体的内容我们交给机器去写,赚流量的同时也赚眼球”。
综合以上分析,四大平台下的写稿机器人最具商业化前景和可能性。“其平台不仅具备完善的财经数据,同时得到了阿里巴巴的电商数据支持”,前文提及的“千牛”电商平台资讯服务也得益于此。
此外,据汤开智博士介绍,DT稿王产品的下一侧重方向在于,“为专业的内容生产方提供技术输出,建立一套辅助写作系统,能够和编辑互动”。
“语言生成是一个非常基础的问题,我们如果可以把这个问题解决好,自然语音的理解方面可能还会有更大的突破,我们很多方法可以把难问题变简单,如果能够设计成模型自动的做这一步,最后得到的效果会更好”,今日头条科学家、实验室总监 李磊 表示,可以想象围绕写稿机器人衍生的系列“文本范式”算法,将成为今日头条后续的信息流源头之一。
腾讯方面,则朝着产品化的路径进一步完善。“近期,我们会有一个更具体的产品发布。类似一个服务系统,可以用于前端展示”,腾讯财经副总监刘康向智东西。
六、大数据时代下 高质量数据源却“一票难求”
在本月初的IT领袖峰会上, 马化腾 曾提到,就算是腾讯这样规模的平台,在数据应用上仍面临难题。“用户直接产生的数据还需要脱敏(保留隐私性)、清理(保留有效数据)、加标签(分类)等前序工作后才能产生出有价值的数据”。
机器写作需要从大量的文字资料中或许稿源信息和文本数据,然而实际上互联网上的中文信息本来质量就不高,清洗难度很大。
此外,稿源信息清洗后需要格式化,然后通过数据调用载入模板的形式生成 自动化 稿件,这里面模板越精细化,效果就越好。然而实际上没有足够好的信息源来配合模板,同时,编写模板代码的工作量,事实上不小。
以技术基础和数据库为导向。类似NBA、奥运会等大型赛事,大型媒体平台本身需要对接到一个信息数据库,详细的图文数据。“这个数据库是非常高质量的,包含有很多细节的”。但在赛事数据和股市数据之外,很难再找到这样结构化、高质量的数据库。
此外,因为纯粹一个平面化的机器写作很难去做,一般还是要垂直行业能够做精细化,比方说棒球几只安打怎么报,每个投手或者击球手什么特点。对应到法律行业就是要了解司法体系,以及不同法律条文之间的关系,这远不是一个普通创业公司能做的事情。
七、结语:下一个“今日头条”
在你一次不经意的推送点击和页面浏览间,得到的信息很有可能就不再出自人类编辑之手,而是机敏、不知疲倦的写稿机器人产物。如果不是这次深度调查和数据搜集,我也不会意识到写稿机器人产业的发展与落地速度会如此之快。这一切,正在悄无声息地发生在你我身边。
当机器人和人工智能不再依附于具象的实体,而是以一种虚拟手段侵入人类生活时,将变得更加莫测和不可控。同时,也是人类以一种更加理智和客观的态度地审视技术革命的契机。
当新闻编辑室的资源越来越少,重复无创造性劳动力的越来越多,不难想象,在未来的新闻报道中,人工智能将取代更多的“媒体工作者”。
回到技术应用前景。通过为信息流前端引入算法机制,今日头条坐享内容市场的技术红利。如果将这一思路引入上层级的信息流源头呢?在生产模式上进行劳动力改造和个性化匹配,势必将产生更加剧烈的化学反应。
可以预见,人工智能所引发的信息流生产方式颠覆,将成为BAT与今日头条的下一个重要战场。一项由技术驱动的、更为核心的业务比拼。与此同时,庞大的 新兴市场 需求还将催生出一批可期待的技术领域创业新秀。
但需要警惕的是,当人工智能大战晋升到寡头层面,其核心仍是一场数据大战!