UCSB新作:「看图讲故事」中,现行的评价体系会失效
雷锋网 (公众号:雷锋网) AI 科技评论按:近日,圣塔芭芭拉加州大学 王威廉教授 团队在 arXiv 上贴出一篇论文《 No Metrics Are Perfect: Adversarial Reward Learning or Visual Storytelling 》。这篇论文指出,在「看图讲故事」这样比较主观的任务中,现行的评价体系(例如METEOR、BLEU等)会失效。由此他们提出了对抗奖励学习框架,通过逆向强化学习来获得最佳的奖励函数。实验结果表明,在自动评价体系里,这种方法能够获得与GAN、强化学习等模型相同或稍高一点的结果;而在人工评价体系里,则要比它们的结果好很多。
目前,该论文已被自然语言处理顶级会议 ACL 2018 录取。
话说,放在两年前,「看图说话」(视觉字幕,Visual Captioning)还是一个让人比较兴奋的研究热点,而现在已经出现了许多「看图讲故事」(视觉叙事,Visual Storytelling)的研究工作。这两项任务的区别和难度显而易见。以下面这几幅图为例:
「看图说话」要求检测图片中出现的人和物,然后用自然语言把它表述出来。针对上面的图片其输出结果为:
(a) A small boy and a girl are sitting together.
(b) Two kids sitting on a porch with their backpacks on.
(c) Two young kids with backpacks sitting on the porch.
(d) Two young children that are very close to one another.
(e) A boy and a girl smiling at the camera together.
而「看图讲故事」则需要更进一步,它需要提取出图片的主要思想,然后将多张连续图片的内容连贯成一个完整的故事。这就意味着不仅仅是要描述图片包含的物体,还需要“发挥想象”说出图像中没有明确表达的信息,例如人的情绪、潜在的物体等(如下面彩色字体所示)。针对上面5张系列图片的输出结果为:
Story #1: The brother and sister were ready for the firstday of school . They were excite d to go to their first dayand meet new friends . They told their mom how happy they were. They said they were going to make a lot of newfriends . Then they got up and got ready to get in the car .
Story #2: The brother did not want to talk to his sister .The siblings made up. They started to talk and smile.Their parents showed up. They were happy to see them
显然「看图讲故事」的主观性很大,这也就造成这个任务缺少标准的模板,例如上面一组图片可以编成两个完全不同的故事。
早期(其实也就16、17年)的视觉叙事研究主要还是受启于视觉字幕的成功,仍然是通过训练来最大化观测数据对的似然值,这导致的结果就是由于数据库中的表达模式有限,生成的叙事结果也非常的简单和平淡。为了解决这个问题,同时生成更类似于人类描述的故事, Rennie等人 曾提出一种增强学习的框架。但是,由于在视觉叙事的任务中,常见的增强学习方法主要基于字符串匹配的手工奖励(BLEU、METEOR、ROUGE、CIDEr等),这对于推动策略搜索来说要么是有偏差的,要么就过于稀疏。举例来说,本文作者在文章中作为对比,使用ROUGE分数作为奖励来强化其策略学习时,他们发现当ROUGE得分显著提高时,其他分数(例如BLEU, CIDEr等)却并不随之而改善,甚至可能会降到0。
(中间四行是基于手工奖励的增强学习模型,XE-ss和AREL(该论文所提出的模型)后文会讲到。)
一个对抗性的例子如下:
We had a great time to have a lot of the.They were to be a of the. They were to be inthe. The and it were to be the. The, and itwere to be the.
其平均 METEOR 得分高达 40.2,但其他得分却很低。这说明,传统的这些手工奖励不能胜任「看图讲故事」任务的奖励机制。
为了解决这个问题,作者受启于「逆增强学习」,提出了对抗奖励学习(Adversarial REward Learning,AREL)的框架。 和先前方法相比不同的是,这里不再使用传统的手工奖励方式,而是加入一个奖励模型,这个奖励模型通过人类的示例来学习隐式奖励函数,从而来优化策略模型的生成结果。 AREL框架图如下所示:
那么这个模型框架好不好呢?
作者使用2016年 Ting-Hao K. Huang等人发布的
VisualStorytelling (VIST)
数据集来做检验。VIST数据集是首个 sequential vision-to-language 任务(包括视觉叙事任务)的数据集,其中包含有 10117 个 Flickr 相册(网络相册)和 210819 张独立的照片。
好与不好取决于评价的标准。针对「视觉叙事」这项任务,传统上来说就是用 BLEU (B), METEOR (M), ROUGH-L (R), and CIDEr (C) 的分数作为评价指标。作为对比,作者除了选用 Huang et al 和 Yu et al 两个结果作为对比外,还选用了目前来看最好的两个模型,一个是 XE-ss,另一个是 GAN 模型。本文的 AREL 模型采用了与 XE-ss 相同的策略模型,不同点在于 XE-ss 模型使用交叉熵作为奖励函数,而 AREL 有专门的奖励学习模型。
从实验结果可以看出,当采用传统的指标来做评价时,AREL 至少达到了 state-of-art 的标准,甚至还有些微的提升。
但是作者内心似乎已经不再相信在「视觉叙事」任务中这些传统的指标能够成为好的评价标准,他们更倾向于认为在这种创造性的工作中应该让人类来判断好坏。因此他们选择在
亚马逊土耳其机器人
上进行了两种不同的人类评估实验:图灵测试(Turing test)和 成对人类评估(pairwise human evaluation)。
在图灵测试中,每一个评价人员(worker)会同时给一个人工注释的样本和一个机器生成的样本,让他判断哪个是人类/机器生成的。作者针对 XE-ss、BLEU-RL、CIDEr- RL、GAN 和 AREL 五个模型分别独立做了图灵测试:
可以看出,AREL模型的结果在人类评价中的表现远远优于其他模型的结果,Win+Unsure的比例已经非常接近50%了。
为了进一步地比较不同算法在故事语义特征之间的差异,作者又进行了四种成对比较测试:AREL分别与XE-ss、BLEU-RL、CIDEr-RL、GAN之间的比较。比较的流程就是:向评价人员同时呈现两个生成的故事,要求他们从三个方面(关联性、表现力和具体性)进行投票。例如下面这个样本(实验中没有Human-created story,这里作为参考出现):
在关联性、表现力和具体性三方面,(AREL:XE-ss:平局)的投票结果分别为5:0:0,4:0:1,5:0:0。整个实验的结果如下:
这种压倒性的结果表明(至少是经验性地表明),AREL模型生成的故事在关联性、表现力和具体性方面更优异,而这在自动度量评估中并没有被明确地反映出来。
不得不强调一点:以上的这些结果也从侧面说明了,在主观性较大的任务(例如视觉叙事)中传统评价标准在一定程度上是不可靠的。所以,一方面在任务中使用传统的自动评价标准时,要慎行;另一方面,即使你得到一个非常高的分数,也不一定说明你的模型就是好的。
雷锋网总结这篇论文的意义:
1、这篇论文指出了一点:即在主观性较强的任务中,传统的自动度量无论在训练还是评估方面都不一定合适;
2、针对以上问题,作者提出了一种对抗奖励学习的框架,这种框架在人类评估测试中表现良好。
论文地址:
https://arxiv.org/abs/1804.09160
论文摘要
近来虽然在视觉字幕任务中取得了令人印象深刻的结果,但从照片流中生成抽象故事的任务仍然是一个难题。与字幕不同,故事具有更多语言表达风格,并且包含许多不存在于图像中的虚构概念。因此它对 行为克隆算法 提出了挑战。此外,由于评估故事质量的自动指标的局限性,手工奖励的强化学习方法在获得整体性能提升方面也面临困难。因此,我们提出了一个对抗奖励学习(AREL)框架,以从人类示例中学习一个隐式奖励函数,然后利用这个学习到的奖励函数来优化策略搜索。虽然自动评估显示我们的方法在克隆专家行为中性能只比最先进的(SOTA)方法略有提升,但人类评估显示我们的方法在生成更类人的故事中性能要比SOTA系统有显著地提升。
via 雷锋网AI科技评论
。