基于面部表情的情绪识别,让计算机再感性一点
一直以来,作为人类我们都以拥有情感而自豪,这是我们和机器的一种本质上的区别。随着计算机的发展,我们更期盼人机之间的沟通交流,尤其是一种带有感情的沟通交流。计算机在情感方面的成长经历也类似于我们每个人的成长过程——以观察和辨别情感作为最终自然,亲切,生动的交互的开始。
当我们谈到情绪识别的时候,就不得不提一个在这个领域做出了巨大贡献的人——埃及科学家Rana el Kaliouby。像许多成功的“程序猿”一样,她不仅码得一手好代码,在人际关系方面也玩得一手好牌,智商与情商并重。她和她的导师Rosalind Picard一起成立了Affectiva,一家开发情感分析软件的公司。Affectiva也被一些商业媒体列为成长最快的创业公司。事实也证明,这一领域的确非常吸金。
为了阐明工作原理,首先我们需要知道情绪识别的理论基础。Paul Ekman(一个心理学家)提出了六种无论性别年龄生长环境,人人都会具有的基本情感:愤怒,厌恶,恐惧,快乐,悲伤和惊讶。随后,他开始解读这些情感的表达,并且开发了一套“ 面部动作组织系统 ”(FACS)来将每个人的表情分解为许多面部动作单元(Action Units),单独这些面部单元并不能够代表任何的情感,但是利用它们的组合特征我们可以进行一些面部表情识别,没错,就像《Lie to me》里演的一样。如果一个人对你笑的时候只牵动了颧大肌,那么这八成就是一个实实在在的假笑,因为一个真诚的笑容除了颧大肌以外眼轮匝肌也会被牵动。
Rosalind Picard早起在M.I.T的Media Lab做一些图像压缩方面的技术开发,但是很快她就遇到了瓶颈,因为她开发的方法(尽管后来流行一时)与被处理的对象是完全独立的:比如说压缩大运河和总统肖像的图片用的都是一样的方法。她觉得,如果计算机可以知道自己正在处理什么就能改善这个过程。直到读了一本关于联觉的书《The Man Who Tasted Shapes》她才豁然开朗,意识到了情感与理性之间的联系。 与我们传统认为的“无情却又睿智”不同,过少的情感,其实和过度丰富的情感一样都会对我们的理性思考产生不好的影响,事实上一些影响情感的脑损伤也会剥夺人判断和决策的能力,而判断和决策正是我们希望电脑做的事情。
回到电脑的情绪识别,其实做法就是在面部提取一些关键的点,将那些相对不变的“锚点”,比如鼻尖,最为一些参考的固定点,然后用像嘴角这样的点来判断你做出的表情。但是在九十年代,想要制造一个可以准确长出这些离散的面部动作单元的系统实在是太难了,单是数字化一个视频就要25秒。一个早期的研究人员说:无论怎么做总是有一点偏差,而且随着结构的不断扩大,错误也越来越多,每十秒就要重新启动一次。
就这样,研究陷入了瓶颈,于是Kaliouby就带着遗憾去剑桥继续读她的博士学位了。巧的是,有一次演讲后,有一个听众告诉她,她训练电脑读人脸和他自闭症的弟弟遇到的问题很像。当时,剑桥的自闭症研究中心正在做一个面部表情目录的大工程,和Ekman将表情分成一小块一小块动作单元,再通过动作单元的组合判断情绪的做法不同,他们对表情的分类更加自然,简单易懂,将表情进行更细致的分类,然后从某一种特定的表情整体学习其中的特征。比如说在“思考”这一块中就有忧思,踌躇,幻想,判断等等。他们请了六个演员在镜头前展现这些表情,在几乎全员通过之后才给这些表情贴标签。就这样他们有了足够的资料开发MindReader,一个可以在几乎各种环境下检测出复杂情绪的软件,也是Affdex的原型。Ekman,那个提出FACS的心理学家则和别人合作创立了Emotient,也是一款情绪识别的软件,同样是利用机器学习的方法通过海量的数据学习构建一个准确的表情识别框架。
尽管有人质疑仅基于表情、脱离现实情境的甄别方法的准确性,实验表明,计算机不仅可以捕捉到那些虚伪造作的表情,对于一些一闪而过,人无法辨别的微表情,计算机也可以毫不疏漏的捕捉到。Marian Bartlett,一个加州大学的研究员,发现女儿在看到一个戏剧中的暴力场面时,先表吸纳出了一闪而过的暴怒,然后伪装成了惊讶,最后转为了大笑——但是这一切却被电脑捕捉到了。利用”微表情“检测,研究员们可以捕捉到人们拒绝经济援助前一闪而过的厌恶表情,这是普通人用肉眼很难做到的。
这些软件自然有广泛的应用前景。就在2012年总统选举的时候,Kaliouby的团队就利用Affdex检测了200多人看到奥巴马和罗姆尼辩论时的镜头并且以73%的准确率预测了投票的结果。目前,情绪识别已经被广泛运用于商业,未来还将会有更加多样的运用前景。
[本文参考以下来源: newyorker.com ]