南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享
新智元推荐
来源: 深度学习大讲堂授权转载
作者:魏秀参
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
简历投递:j obs@aiera.com.cn
HR 微信: 13552313024
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。
加盟新智元,与人工智能业界领袖携手改变世界。
【新智元导读】 基于第一印象/表象的性格自动分析是计算机视觉和多媒体领域中一类非常重要的研究问题。近日 欧洲计算机视觉大会(ECCV 2016)ChaLearn Looking at People Workshop 举办了一场全球范围的(视频)表象性格分析竞赛,来自南京大学计算机系机器学习与数据挖掘所(LAMDA)的参赛队 NJU-LAMDA 在 86 个参赛队伍中斩获第一,本文为该队 Team Director 魏秀参的经验分享。
英文中有句谚语叫:"You never get a second chance to make a first impression."(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用来快速判断其性格特征(Personal traits)及其复杂的社交特质,如友善、和蔼、强硬和控制欲等等。因此,在人工智能大行其道的当下,基于第一印象/表象的性格自动分析也成为计算机视觉和多媒体领域中一类非常重要的研究问题。
前不久,欧洲计算机视觉大会(ECCV 2016)ChaLearn Looking at People Workshop 就举办了一场全球范围的(视频)表象性格分析竞赛(Apparent personality analysis)。历时两个多月,我们的参赛队(NJU-LAMDA)在 86 个参赛者,其中包括有印度“科学皇冠上的瑰宝”之称的 Indian Institutes of Technology (IIT)和荷兰名校 Radboud University等劲旅中脱引而出,斩获第一。在此与大家分享我们的竞赛模型和比赛细节。
问题重述
本次 ECCV 竞赛提供了平均长度为 15 秒的 10000 个短视频,其中 6000 个为训练集,2000 个为验证集,剩余 2000 个作为测试。比赛要求通过对短视频中人物表象(表情、动作及神态等)的分析来精确预测人的五大性格特质,即 Big Five Traits,其中包括:经验开放性(Openness to experience)、尽责性(Conscientiousness)、外向性(Extraversion)、亲和性(Agreeableness)和情绪不稳定性(Neuroticism)。视频示例如下所示:
竞赛数据中五大性格特质的真实标记(Ground truth)通过 Amazon Mechanical Turk 人工标注获得,每个性格特质对应一个0~1之间的实值。
我们的方法
由于竞赛数据为短视频,我们很自然的把它作为双模态(Bimodal)的数据对象来进行处理,其中一个模态为音频信息(Audio cue),另一个则为视觉信息(Visual cue)。同时,需预测的五大性格特质均为连续值,因此我们将整个问题形式化为一个回归问题(Regression)。我们将提出的这个模型框架称作双模态深度回归(Deep Bimodal Regression,DBR)模型。下面分别从两个模态的处理和最后的模态融合来解析 DBR。
视觉模态
在视觉模态中,考虑到对于短视频类数据,时序信息的重要程度并不显著,我们采取了更简单有效的视频处理方式,即直接将视频随机抽取若干帧(Frame),并将其作为视觉模态的原始输入。当然,在 DBR 中,视觉模态的表示学习部分不能免俗的使用了卷积神经网络(Convolutional Neural Networks,CNN)。同时,我们在现有网络基础上进行了改进,提出了描述子融合网络(Deor Aggregation Networks,DAN),从而取得了更好的预测性能。
以 VGG-16 为例,传统 CNN 经过若干层卷积(Convolutional)、池化(Pooling)的堆叠,其后一般是两层全链接层(Fully connected layers)作为网络的分类部分,最终输出结果。
受到我们最近工作[2]的启发,在 DBR 视觉模态的 CNN 中,我们扔掉了参数冗余的全链接层,取而代之的是将最后一层卷积层学到的深度描述子(Deep deor)做融合(Aggregation),之后对其进行 L2 规范化(L2-normalization),最后基于这样的图像表示做回归(fc+sigmoid作为回归层),构建端到端(End-to-end)的深度学习回归模型。另外,不同融合方式也可视作一种特征层面的集成(Ensemble)。如下图,在 DAN中,我们对最后一层卷积得到的深度描述子分别进行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后对得到的融合结果分别做 L2 规范化,接下来将两支得到的特征级联(concatenation)后作为最终的图像表示(Image representation)。
传统 CNN中,80% 的参数存在于全链接层,而 DAN 摒弃了全链接,使得 DAN 相比传统 CNN 模型拥有更少的参数,同时大幅减少的参数可加速模型的训练速度。另外,全局池化带来了另一个优势即最终的图像表示(512 维)相比传统全链接层(4096 维)有了更低的维度,有利于模型的可扩展性以处理海量(Large-scale)数据。
此外,为了集成多层信息(Multiple layer ensemble),在 DAN 基础上我们提出了可端到端训练的 DAN+。具体而言,是对 ReLU5_2 层的深度描述子做上述同样操作,得到对应于 ReLU5_2 的图像表示,将其与 Pool5 层的 DAN 得到的图像表示进行二次级联,最终的向量维度为 2048 维。
除 DAN 和 DAN+ 外,在视觉模态中,我们还利用了著名的残差网络(Residual Networks)作为模型集成的另一部分。
音频模态
语音处理中的一种常用的特征为MFCC特征,在竞赛模型中,我们首先从视频中提取原始语音作为输入数据,之后对其抽取MFCC特征。在此需要指出的是,抽取MFCC过程的一个副产品是一种名为logfbank特征,如下图所示:
在抽取 logfbank 和 MFCC 特征后,我们同样采取 mini-batch 形式的训练方式训练线性回归器(Linear regression)。在竞赛中,我们发现 logfbank 相比 MFCC有更优秀的预测效果,如下图所示。其纵轴为回归错误率(越低越好),其横轴为训练轮数,可以发现 logfbank 在最终的回归错误率上相比 MFCC 有近 0.5% 的提升。
于是我们选取 logfbank 特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限,我们在比赛中未使用语音处理领域的深度学习模型。不过,这也是后续可以提高模型性能的一个重要途径。
模态融合(Modality ensemble)
待两个模态的模型训练完毕,可以得到不同模态不同模型的性格特质预测结果,比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果,如图:
竞赛结果
比赛中,我们对一个视频抽取 100 帧/张图像作为其视觉模态的输入,对应的原始音频作为抽取 logfbank 特征的语料。训练阶段,针对视觉模态,其 100 张图像共享对应的性格特质真实标记;预测阶段,其 100 张图像的平均预测值将作为该视频视觉模态的预测结果。
经下表对比,可以清楚看到,DAN 相比 VGG-Face,由于没有了冗余的全链接层,其参数只有 VGG-Face 的约十分之一,而回归预测准确率却优于传统 VGG 模型,同时特征维度大大减少。此外,相比ResNet,我们提出的模型 DAN 和 DAN+ 也有不俗表现。此外,在模型预测速度上,DAN 和 DAN+ 也快于 VGG 和 ResNet。
模态集成后,我们在五个性格特质预测上取得了四个结果的第一,同时我们也取得了总成绩的冠军。
模型分析
最后,我们将模型最后一层卷积/池化的特征做了可视化。可以发现 ResNet 仅仅将“注意力”聚焦在了视频中的人物上,而我们的 DAN 和 DAN+ 不仅可以“注意”到人,同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是,其余参赛队均做了人脸检测等预处理操作,从而将人物从视频中“抠”出,但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”,一个人所处的环境(尤其是卧室、办公室等私人场所)往往可以从侧面反映一个人的性格特性。
参考文献
[1] Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.
[2] Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Deors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016.
[3] Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.
作者简介: 魏秀参,为本次竞赛NJU-LAMDA参赛队Team Director。南京大学计算机系机器学习与数据挖掘所(LAMDA)博士生,研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文,并多次获得国际计算机视觉相关竞赛冠亚军,另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等。 微博ID:Wilson_NJUer
深度学习大讲堂是高质量原创内容的平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
深度学习大讲堂
新智元招聘
职位 运营总监
职位年薪:36- 50万(工资+奖金)
工作地点:北京-海淀区
所属部门:运营部
汇报对象:COO
下属人数:2人
年龄要求:25 岁 至 35 岁
性别要求:不限
工作年限:3 年以上
语 言:英语6级(海外留学背景优先)
职位描述
-
负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向
-
擅长开拓市场,并与潜在客户建立良好的人际关系
-
深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态
-
主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力
-
带领团队完成营业额目标,并监控管理项目状况
-
负责公司平台运营方面的战略计划、合作计划的制定与实施
岗位要求
-
大学本科以上学历,硕士优先,要求有较高英语沟通能力
-
3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作
-
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
-
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
-
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
-
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
-
有媒体广告部、市场部,top20公关公司市场拓展部经验者优先
新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。