南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

搜狐科技 • 8年前扫码分享

新智元推荐

来源：深度学习大讲堂授权转载

作者：魏秀参

　　 新智元启动新一轮大招聘 ：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　 简历投递：j obs@aiera.com.cn

　　 HR 微信： 13552313024

　　 新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

　　 加盟新智元，与人工智能业界领袖携手改变世界。

　　 【新智元导读】 基于第一印象/表象的性格自动分析是计算机视觉和多媒体领域中一类非常重要的研究问题。近日欧洲计算机视觉大会（ECCV 2016）ChaLearn Looking at People Workshop 举办了一场全球范围的（视频）表象性格分析竞赛，来自南京大学计算机系机器学习与数据挖掘所（LAMDA）的参赛队 NJU-LAMDA 在 86 个参赛队伍中斩获第一，本文为该队 Team Director 魏秀参的经验分享。

　　英文中有句谚语叫："You never get a second chance to make a first impression."（你永远没有第二个机会去改变你的第一印象。）一个人的第一印象可以用来快速判断其性格特征（Personal traits）及其复杂的社交特质，如友善、和蔼、强硬和控制欲等等。因此，在人工智能大行其道的当下，基于第一印象/表象的性格自动分析也成为计算机视觉和多媒体领域中一类非常重要的研究问题。

　　前不久，欧洲计算机视觉大会（ECCV 2016）ChaLearn Looking at People Workshop 就举办了一场全球范围的（视频）表象性格分析竞赛（Apparent personality analysis）。历时两个多月，我们的参赛队（NJU-LAMDA）在 86 个参赛者，其中包括有印度“科学皇冠上的瑰宝”之称的 Indian Institutes of Technology （IIT）和荷兰名校 Radboud University等劲旅中脱引而出，斩获第一。在此与大家分享我们的竞赛模型和比赛细节。

　　问题重述

　　本次 ECCV 竞赛提供了平均长度为 15 秒的 10000 个短视频，其中 6000 个为训练集，2000 个为验证集，剩余 2000 个作为测试。比赛要求通过对短视频中人物表象（表情、动作及神态等）的分析来精确预测人的五大性格特质，即 Big Five Traits，其中包括：经验开放性（Openness to experience）、尽责性（Conscientiousness）、外向性（Extraversion）、亲和性（Agreeableness）和情绪不稳定性（Neuroticism）。视频示例如下所示：

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　竞赛数据中五大性格特质的真实标记（Ground truth）通过 Amazon Mechanical Turk 人工标注获得，每个性格特质对应一个0～1之间的实值。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　我们的方法

　　由于竞赛数据为短视频，我们很自然的把它作为双模态（Bimodal）的数据对象来进行处理，其中一个模态为音频信息（Audio cue），另一个则为视觉信息（Visual cue）。同时，需预测的五大性格特质均为连续值，因此我们将整个问题形式化为一个回归问题（Regression）。我们将提出的这个模型框架称作双模态深度回归（Deep Bimodal Regression，DBR）模型。下面分别从两个模态的处理和最后的模态融合来解析 DBR。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　视觉模态

　　在视觉模态中，考虑到对于短视频类数据，时序信息的重要程度并不显著，我们采取了更简单有效的视频处理方式，即直接将视频随机抽取若干帧（Frame），并将其作为视觉模态的原始输入。当然，在 DBR 中，视觉模态的表示学习部分不能免俗的使用了卷积神经网络（Convolutional Neural Networks，CNN）。同时，我们在现有网络基础上进行了改进，提出了描述子融合网络（Deor Aggregation Networks，DAN），从而取得了更好的预测性能。

　　以 VGG-16 为例，传统 CNN 经过若干层卷积（Convolutional）、池化（Pooling）的堆叠，其后一般是两层全链接层（Fully connected layers）作为网络的分类部分，最终输出结果。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　受到我们最近工作[2]的启发，在 DBR 视觉模态的 CNN 中，我们扔掉了参数冗余的全链接层，取而代之的是将最后一层卷积层学到的深度描述子（Deep deor）做融合（Aggregation），之后对其进行 L2 规范化（L2-normalization），最后基于这样的图像表示做回归（fc+sigmoid作为回归层），构建端到端（End-to-end）的深度学习回归模型。另外，不同融合方式也可视作一种特征层面的集成（Ensemble）。如下图，在 DAN中，我们对最后一层卷积得到的深度描述子分别进行最大（Max）和平均（Average）的全局池化（Global pooling）操作，之后对得到的融合结果分别做 L2 规范化，接下来将两支得到的特征级联（concatenation）后作为最终的图像表示（Image representation）。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　传统 CNN中，80% 的参数存在于全链接层，而 DAN 摒弃了全链接，使得 DAN 相比传统 CNN 模型拥有更少的参数，同时大幅减少的参数可加速模型的训练速度。另外，全局池化带来了另一个优势即最终的图像表示（512 维）相比传统全链接层（4096 维）有了更低的维度，有利于模型的可扩展性以处理海量（Large-scale）数据。

　　此外，为了集成多层信息（Multiple layer ensemble），在 DAN 基础上我们提出了可端到端训练的 DAN+。具体而言，是对 ReLU5_2 层的深度描述子做上述同样操作，得到对应于 ReLU5_2 的图像表示，将其与 Pool5 层的 DAN 得到的图像表示进行二次级联，最终的向量维度为 2048 维。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　除 DAN 和 DAN+ 外，在视觉模态中，我们还利用了著名的残差网络（Residual Networks）作为模型集成的另一部分。

音频模态

　　语音处理中的一种常用的特征为MFCC特征，在竞赛模型中，我们首先从视频中提取原始语音作为输入数据，之后对其抽取MFCC特征。在此需要指出的是，抽取MFCC过程的一个副产品是一种名为logfbank特征，如下图所示：

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　在抽取 logfbank 和 MFCC 特征后，我们同样采取 mini-batch 形式的训练方式训练线性回归器（Linear regression）。在竞赛中，我们发现 logfbank 相比 MFCC有更优秀的预测效果，如下图所示。其纵轴为回归错误率（越低越好），其横轴为训练轮数，可以发现 logfbank 在最终的回归错误率上相比 MFCC 有近 0.5% 的提升。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　于是我们选取 logfbank 特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限，我们在比赛中未使用语音处理领域的深度学习模型。不过，这也是后续可以提高模型性能的一个重要途径。

　　模态融合（Modality ensemble）

　　待两个模态的模型训练完毕，可以得到不同模态不同模型的性格特质预测结果，比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果，如图：

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　竞赛结果

　　比赛中，我们对一个视频抽取 100 帧／张图像作为其视觉模态的输入，对应的原始音频作为抽取 logfbank 特征的语料。训练阶段，针对视觉模态，其 100 张图像共享对应的性格特质真实标记；预测阶段，其 100 张图像的平均预测值将作为该视频视觉模态的预测结果。

　　经下表对比，可以清楚看到，DAN 相比 VGG-Face，由于没有了冗余的全链接层，其参数只有 VGG-Face 的约十分之一，而回归预测准确率却优于传统 VGG 模型，同时特征维度大大减少。此外，相比ResNet，我们提出的模型 DAN 和 DAN+ 也有不俗表现。此外，在模型预测速度上，DAN 和 DAN+ 也快于 VGG 和 ResNet。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　模态集成后，我们在五个性格特质预测上取得了四个结果的第一，同时我们也取得了总成绩的冠军。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　模型分析

　　最后，我们将模型最后一层卷积／池化的特征做了可视化。可以发现 ResNet 仅仅将“注意力”聚焦在了视频中的人物上，而我们的 DAN 和 DAN+ 不仅可以“注意”到人，同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是，其余参赛队均做了人脸检测等预处理操作，从而将人物从视频中“抠”出，但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”，一个人所处的环境（尤其是卧室、办公室等私人场所）往往可以从侧面反映一个人的性格特性。

　　南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

　　 参考文献

　　 [1] Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.

　　 [2] Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Deors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016.

　　 [3] Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.

　　 作者简介： 魏秀参，为本次竞赛NJU-LAMDA参赛队Team Director。南京大学计算机系机器学习与数据挖掘所（LAMDA）博士生，研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文，并多次获得国际计算机视觉相关竞赛冠亚军，另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等。微博ID：Wilson_NJUer

　　深度学习大讲堂是高质量原创内容的平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

　　深度学习大讲堂

新智元招聘

　　 职位运营总监

职位年薪：36- 50万（工资+奖金）

工作地点：北京-海淀区

所属部门：运营部

汇报对象：COO

下属人数：2人

年龄要求：25 岁至 35 岁

性别要求：不限

工作年限：3 年以上

语言：英语6级（海外留学背景优先）

　　 职位描述

负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作，人工智能及机器人产业方向
擅长开拓市场，并与潜在客户建立良好的人际关系
深度了解人工智能及机器人产业及相关市场状况，随时掌握市场动态
主动协调部门之间项目合作，组织好跨部门间的合作，具备良好的影响力
带领团队完成营业额目标，并监控管理项目状况
负责公司平台运营方面的战略计划、合作计划的制定与实施

　　 岗位要求

大学本科以上学历，硕士优先，要求有较高英语沟通能力
3年以上商务拓展经验，有团队管理经验，熟悉商务部门整体管理工作
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
有媒体广告部、市场部，top20公关公司市场拓展部经验者优先

　　 新智元欢迎有志之士前来面试，更多招聘岗位请访问新智元公众号。

随意打赏

高质量训练集助力研究第七届传播数据挖掘竞赛喊你报名！

砍柴网 • 16天前

对于大模型而言，数据集作为机器学习和统计建模的基础，是算法学习所需的“食材”。而对于智能与计算传播学专业的师生而言，高质量的数据集是前沿课题研究中不可或缺的基础资源。由中国新闻史学会智能与计算传播专委会指导，中央民族大学新闻与传播学院、微热点研究院联
第六届传播数据挖掘竞赛报名通道开启！

砍柴网 • 1年前

由浙江工业大学与微热点研究院联合举办的第六届传播数据挖掘竞赛正式启动。报名截止时间为4月25日，感兴趣的团队可要抓紧时间报名啦！自2018年创办至今，传播数据挖掘竞赛已举办五届，吸引了来自北京大学、清华大学、复旦大学、帝国理工学院、哥伦比亚大学等国内外名校近600个团队、2300余名学生参与。随着参赛团队数量的增加、覆
微美全息开发基于数据挖掘和神经网络的数据分析与监测算法系统

砍柴网 • 2年前

近年来，互联网及其相关技术促进了计算机、网络和通信的整合，数据处理总量越来越大，各产业的信息化程度越来越高，社会的数据化趋势越来越明显。面对海量数据，决策者很难直接从中提取有价值的知识，这导致对数据分析工具的强烈需求。数据挖掘是信息技术自然演进产生的高级数据分析工具。数据挖掘是从庞
微美全息开发基于人工神经网络的数据挖掘聚类算法系统

砍柴网 • 2年前

互联网数据量呈爆炸式增长，数据对社会生产和生活的影响越来越大，数据挖掘技术的应用也越来越广泛。数据挖掘过程是一个反复多次的人机交互过程，它包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评估模型等。主要的数据挖掘算法包括关联分析、序列模式挖掘、分类算法及聚类算法等。据了解，WIMI微美全息
容联云知识图谱Demo论文被数据挖掘顶级国际会议CIKM 2022录用

砍柴网 • 2年前

近日，信息检索和数据挖掘领域的国际顶级学术会议CIKM公布了2022年Demo论文的录用结果，容联云人工智能实验室（Cloopen Research）与南开大学合作的论文《DASH: An Agile Knowledge Graph System Disentangling Demands, Algorithms, D
干货分享：数据挖掘浅谈

人人都是产品经理 • 3年前

编辑导读：数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中通过算法搜索隐藏于其中信息的过程。本文作者围绕数据挖掘展开分析，希望对你有帮助。豆豆和花花开了一家鲜花店。豆豆跟花花说：“情人节快到了，咱店都需要准备哪类情人节花束？每类花束需要准备多少？……” 花花回答道，“根据顾客分类，大致分为自信示爱、甜蜜上
中山大学联合创邻科技Galaxybase破万亿数据挖掘世界记录

砍柴网 • 3年前

数字经济时代，数据成为关键生产要素。企业从海量数据中挖掘商业价值的需求越发迫切。但这些高维、异构、复杂关联的数据给传统大数据处理和关系型数据库产品带来了极大挑战。中山大学联合创邻科技 “Galaxybase”图数据库，完成了万亿规模交易数据智能挖掘性能
数据挖掘顶会ICDM 2021奖项出炉：华人包揽头奖，张成奇获杰出服务奖

雷锋网 • 3年前

作者 | 王晔编辑 | 青暮近日，ICDM 2021公布了研究贡献奖、杰出服务奖、10年最具影响力论文奖、最佳论文奖、最佳学生论文奖、DEI奖等多项大奖。其中，华人学者获得包括杰出服务奖、最佳论文奖、最佳学生论文在内的众多奖项！IEEE ICDM（全称IEEE International Co
四种方法，用数据挖掘潜力用户

人人都是产品经理 • 3年前

编辑导语：如何才能高效地挖掘潜力用户？现有的数据可以告诉我们用户现状如何，但这些表示现状的数据却不能成为我们判断“潜力”的标准。那么我们如何利用数据分析来判断潜力用户？本文作者便总结了用数据挖掘潜力用户的方法操作，一起来看一下。“挖掘一下，哪些客户有潜力”是很多同学在日常工作中老大难问题。到底怎么算是有潜力？又该怎么用
数据挖掘国际顶会KDD 2021收录结果公布百度多篇论文入选

砍柴网 • 3年前

8月14日至18日，国际数据挖掘与知识发现大会 KDD 2021在线上正式举行。此前本届KDD入选论文已经揭晓，百度被收录的多篇论文，其突出的特点是学术研究与技术应用紧密结合，再次展现百度在AI领域的技术实力。ACM SIGKDD（简称KDD）国际数据挖掘与知识发现大会至今已连续举办了26届，是世界数据挖掘最高级别的学

评论