解析动漫中的“日式视觉语言”:人工智能如何读懂二次元?
现在已经有人开始利用人工智能研究动漫里萌萌哒的视觉语言了。加州大学圣迭戈分校的Neil Cohn和Sean Ehly两位学者对日式视觉语言中的“词素”进行了描述与分类,并且分析了1997年到2012年最受欢迎的10本男生向漫画和10本女生向漫画,包括《火影忍者》、《进击的巨人》、《妖精的尾巴》等。 他们发现,视觉语言在男生向漫画与女生向漫画并无显著差异。
那些生活在漫画二次元世界中的人,他们的生活是怎样的?色迷迷盯着美女时,他们的鼻子会流血;安稳睡觉时,他们的鼻子上又会出现气泡。一旦二次元漫画人物情绪高涨,他们就会迅速变得异常“卡通化”,就像下图这样——
(日本漫画中的代表性情绪“视觉语言” | 图片来源:Visual Language Lab)
即便不认识图中的英文,看过日式动漫的人想必也一定能理解这些卡通图像的含义。这些长久以来约定俗成的漫画元素被称作“视觉语言”,流血的鼻子和鼻子上的气泡等则被视为“视觉词素”。
| 什么是“视觉语言”?
人类使用口头或书面语言来交流,同时也会使用视觉图像,例如绘画。但运用视觉进行交流有其特殊性。首要的一个问题是,我们说口语,那么我们画()?
当代的语言与认知理论给出的答案正是“视觉语言。”实证也表明,人们在处理视觉信息时,大脑的神经反应与处理口语句子相似。和口语一样,视觉语言也分为多个语种,这与各地区的文化差异有关。
在东亚流行的日式漫画建立在“日式视觉语言”上,它们与美式漫画或法式漫画差异极大。“日式视觉语言”只是一种统称,中国与韩国的许多动漫也具备这些元素。另外,“日式视觉语言”也并非只出现在动漫中,它早已渗入到东亚青少年的日常生活,你在QQ或微信上一定被类似下图中的表情萌到过。
(视觉语言萌萌哒 | 图片来源:千图)
现在,有学者开始研究生活中的这种视觉语言了。
| 动漫中的“日式视觉语言”
为了研究这种视觉语言,加州大学圣迭戈分校的Neil Cohn和Sean Ehly两位学者对日式视觉语言中的“词素”进行了描述与分类。为此,他们分析了1997年到2012年最受欢迎的10本男生向漫画和10本女生向漫画,包括《火影忍者》、《进击的巨人》、《妖精的尾巴》等作品。
运用人工智能领域的 图像识别 与自然语言处理技术,他们分类了日本漫画中约定俗称的73个图形模式,下面便是其中的12种。 他们还发现,视觉语言在男生向漫画与女生向漫画并无显著差异,只有10种只出现在某一类漫画里。 他们的论文将发表在2016年新一期的《语用学杂志》(Journal of Pragmatics)上。
(雷锋网萌萌哒二次元记者友情备注:男生向就是后宫向,男主自带主角光环,所有女孩子都喜欢他一个人,其他男二男三都没人爱;女生向就是耽美番,里面全是男的,各种搞基卖腐,或者像月刊少女野崎君那样的纯爱番,男主蠢萌,女主各种追。这种狗血剧跟韩剧有些类似,但是没有那些要死要活的,只有卖萌。)
(日本漫画中的图形模式 | 图片来源:黑匣)
| 那么,他们为什么要研究漫画中的日式视觉语言?
-
从自然语言到视觉语言
长久以来,人工智能研究者的梦想便是让电脑等机器“懂”人类的语言。人工智能和语言学交叉,形成了自然语言处理这一分支。现在,机器已经能够基本“听懂”人类的语言,自然语言处理早已渗入普通人的生活。
以语音搜索与识别为例,根据德勤的报告,Google在2014年将 语音识别 的精准度从2012年的84%提升到如今的98%,移动端Android系统的语音识别准确性提高了25%。而在2015年5月, 微软宣布实时翻译工具Skype Translator面向所有用户开放预览版,它能自动翻译不同语言的语音通话和即时通信消息。 未来,科幻电影《星际迷航》中的“万用对讲机”很可能变为现实,各个地区之间的语言障碍将不复存在。
但是人类还同时使用其他“语言”沟通,例如面部表情。虽然图像识别发展迅速,理解人类的表情或情绪对于机器来说仍然困难。
-
人工智能也“看脸”
现在,机器已经能够识别人脸等图像,近年逐渐兴起的深度学习技术更是让图像识别有了巨大飞跃。
2014年,4位Google深度学习科学家发表了一篇题为“Show and Tell: A Neural Image Caption Generator(NIC,神经图片标题生成器)”的论文,展示了 神经网络 为图片自主拟出标题 的技术。 NIC堪与图片编辑相比,是一项包含视觉和语言要素的大型实验。其非凡之处在于,它将可视化图片的学习系统建立在神经网络的基础上,而后者可以用自然语言造句。
(NIC根据图像生成完整的自然语言句子 | 图片来源:arXiv)
下一步,凭借着人工智能的发展,机器或许将可以很好地理解人类的面部表情等情绪表达。许多学者认为,要将自然语言处理拓展到视觉语言,首先要弄懂这种“语言”的基本“词素”。
运用各种视觉元素来展现情节与情绪的漫画无疑是个很好的载体。 如何机器能够预先知道漫画的典型视觉“词素”,也能识别出对话等文本,那么“看懂”漫画就指日可待。最终,人类的各种表情与情绪也难逃机器法眼,一个能看懂你的小冰或者Siri难道不更聪明可爱吗?