堪比莎士比亚?AI 诗人创作十四行诗,节奏和押韵表现超越人类
这是莎士比亚十四行诗中的一节。
这是 Deep-speare 人工智能程序“创作”的十四行诗。
暂且不说 Deep-speare“作品”的质量如何,至少在节奏、押韵以及语法方面,这一小节十四行诗的表现都非常不错,足以迷惑不少人。这也正是一些研究团队发现,大多数读者无法区分人工智能生成的诗歌和人类创作诗歌的原因。
Deep-speare 团队包括三名机器学习研究人员和一名文学学者组成,他们用了大约 2700 首十四行诗,约 36.7 万个单词来训练这个人工智能“诗人”,让它学会自己“创作”。
简单来说就是,Deep-speare 通过深度学习来对训练数据库中对诗歌进行筛选,一次又一次地尝试创造出与样本匹配的诗句。
尽管以前在一些类似项目中,研究人员会提前给人工智能输送押韵、节奏等方面的知识,但 Deep-speare 独立地学习了十四行诗写作相关的三大要素:节奏、韵式和自然的语言(即单词正确流畅地组合在一起)。
具体来说,Deep-speare 的系统由三个部分组成:一个节奏模型,一个韵式模型,以及一个确保语法正确的自然语言模型,其中,自然语言模型是最主要的部分。
首先,语言模型会对语料库(语料库的内容基于维基百科词条、Reddit 话题,以及一些专门为构建的数据库)中单词进行筛选和预测,判断哪些单词是适合组合在一起成为句子的。经过适当的训练后,语言模型会赋予流利的句子高评分,赋予无意义的句子低评分。
语言模型的质量则可以通过观察下一个单词(从右往左)的关联性强度来提现。比如“San-Francisco”经常同时出现,“coffe”常常与“refresh”或“life-giving”等单词的关联性更强,而不和“powerful”或“light”等词有关。如果语言模型能够正确处理这些信息,那么,就可以认为这个模型已经在很大程度上捕获了语言的复杂性。
一旦语言模型训练有素之后,从零开始生成一个句子就不再是难事,重复这一步骤就能实现创作十四行诗的基础。
除了单词和句子,Deep Speare 还要学习节奏,即观察每一行中的字母和标点符号,并确定哪些字符对应哪些音节,哪些音节接受重音。例如,单词“summer”应该被理解为两个音节,重音情况也有所不同——重读的“sum”和不重读的“mer”。
当 Deep-speare 写十四行诗时,语言模型会生成候选诗行,韵律模型再从中挑选出符合节奏的诗行,然后重复这一过程。
当然,还有韵式模型。这个模型只关注每一行诗的最后一个单词,尽可能地实现单词押韵。比如,“day”和“may”,“temperate”和“date”。
在检查诗歌输出时,研究团队发现, Deep-speare 生成的诗歌短语与训练数据并没有太多重叠。也就是说,它并没有对训练数据进行记忆,然后直接从中复制,而是创作了具有原创意义的诗歌。然而,这并不能说明诗歌在文学方面的质量。
为此,研究团队找来了两批评委,让评委分辨人类和机器创作的十四行诗。
第一批是亚马逊 Mechanical Turk 雇佣的众包工人,他们只会基本的英语,但没有诗歌方面的专业知识。最终的结果是,工人们以 50% 的准确率猜出人类诗歌和机器诗歌。不过,这一数据可能虚高,因为工人们可能在网上对诗歌节选进行了搜索,人类诗歌会出现搜索结果反馈,而机器诗歌不会出现。
第二个评委是多伦多大学的文学助理教授 Adam Hammond。这一次,评判的方式是对人机合写的十四行诗的韵律、节奏、可读性和情感影响等四大属性进行评分。结果,Adam Hammond 对 Deep-speare 的节奏和韵式给予了极高的评价,甚至超越人类(因为诗人常常为了达到某种效果而特意不遵循规律);在可读性和情感方面,Deep-speare 则略逊一筹,文学专家一眼就能看出来哪些出自莎士比亚之手,哪些来自 AI 诗人。
当前,研究团队正在努力提高人工智能诗人在可读性和情感影响方面的表现。
另一方面,人类诗人在创作前并不会端坐在桌前思考,“嗯,我的第一个词应该是什么?”然后,在做出这个艰难的决定之后,再绞尽脑汁想第二个词。相反,诗人头脑中会有一个预想的主题,然后寻找词语来表达这个想法。
研究团队已经朝这个方向迈出了一步,通过赋予 Deep-speare 能力来生成基于特定主题的诗歌,比如爱或失去。而且,坚持一个主题可以增加四行诗的连贯性,模型可选择的词汇也将受到主题的限制。
毫无疑问,这是一个雄心勃勃的项目。
雷锋网
(公众号:雷锋网)
雷锋网
雷锋网注:本文编译自 IEEE Spectrum
。