谷歌发布AVA数据库：5万个精细标注视频片段，助力识别人类动作

雷锋网 • 7年前扫码分享

雷锋网AI科技评论按：在计算机视觉研究中，识别视频中人的动作是一个基础研究问题。个人视频搜索和发现、运动分析和手势交流等应用中，都会用到这项至关重要的技术。尽管过去的几年里在图像中分类和识别物体的技术上，我们已经取得了令人振奋的突破，但识别人类的动作仍然是一个巨大的挑战。从本质上来说，视频中人的行为更难被明确定义，而物体的定义更为明确。所以构建精细动作标记的视频数据集非常困难。目前虽然有许多基准数据集，比如UCF101、ActivityNet和DeepMind Kinetics，采用基于图像分类的标签方案，为数据集中的每个视频或视频片段分配一个标签，但不存在面向复杂场景的视数据集，比如同一时刻多人不同动作的场景。

为了进一步研究识别人类动作的技术，雷锋网AI科技评论了解到，谷歌发布了AVA (Atomic Visual Actions)数据库，意思是“原子视觉动作”，这一新数据集为扩展视频序列中的每个人打上了多个动作标签。 AVA数据集由YouTube公开视频的URL组成，这些视频被80个原子动作标注，例如走路，踢东西，握手等，所有动作都具有时空定位，产生5.76万个的视频片段，9.6万个人类动作，以及21万个的动作标签。

您可以访问AVA网站，来探索数据集和下载标注，您也可以阅读谷歌发表于arXiv上的论文，了解该数据集的设计和开发。

图1. AVA网站截图

与其他动作标签数据集相比，AVA具有以下主要特点：

基于人的标签：每个动作标签都与人相关联，而不是与整段视频或剪辑关联。常见的场景是同一场景中有多个人在执行不同动作，为这些动作分配不同的标签。
基于原子视觉动作：谷歌将动作标签限制在精细的时间尺度（3秒），在这个尺度上动作都是物理动作，并具有清晰的视觉特征。
基于真实视频资料：谷歌把电影作为AVA的数据来源，包括不同国家、不同流派的电影。因此，数据源覆盖了大部分人类行为。

谷歌发布AVA数据库：5万个精细标注视频片段，助力识别人类动作

图2. 3秒视频片段中间帧中的红色边框标注(为清晰起见，每个示例仅显示一个边界框)

为了创建AVA，谷歌首先从YouTube收集了大量多样化的视频内容，内容集中在是电影和电视这两个类别，视频里有不同国籍的专业演员。每个视频分析其中15分钟的剪辑片段，并这个片段均匀分割成300个不重叠小片段，每一段3秒钟，这种采样策略保留了动作序列的时间顺序。

接下来，在每个3秒片段的中间帧，手动标记边框里的人。打标者从预定义的80个原子动作词汇中，选择适当数量的标签来描述人物的行为动作。这些行为分为三组：姿态/移动动作、人和物体的交互、人与人的交互。因为对所有人的动作都进行了全面打标，因此AVA的标签频率是呈现长尾分布的，如下图所示。

谷歌发布AVA数据库：5万个精细标注视频片段，助力识别人类动作

图3. AVA的原子动作标签频次分布图（x 轴所示标签只是词汇表的一部分）

由于AVA的独特设计，我们可以从中能够得出一些有趣的统计信息，而这些信息从其他现有数据集中是统计不出来的。例如，数据集中多数人具有两个以上的动作标签，那么我们可以找出不同行为标签共现模式（co-occurrence pattern）。下图展示了AVA中最有可能并发的动作对及其同时出现的频率分值，例如人们经常在唱歌时玩乐器，和小孩玩耍的时抱起他，亲吻时拥抱。

谷歌发布AVA数据库：5万个精细标注视频片段，助力识别人类动作

图4. AVA中统计得出共现频率分值最高的动作对

为了评估AVA数据集在人类行为识别系统中的有效性，谷歌设计了一个现有的基线深度学习模型，该模型在较小的JHMDB数据集上获得了很好的绩效。由于视频变焦、背景杂乱、摄影角度和外貌变化等问题，该模型实现了较为不错的表现，正确识别AVA中动作的平均准确率达到18.4％，这表明AVA数据集可用于开发和评估新的动作识别架构和算法。

谷歌希望AVA的发布能加速人类动作识别系统的发展。基于具有精细时空粒度的标签，对个人复杂活动进行建模将变为现实。谷歌将继续扩充和改进AVA，并渴望听取来自社区的反馈，帮助校正AVA数据集未来的发展方向。请加入AVA Mail List（ https://groups.google.com/forum/#!forum/ava-dataset-users），即可获得数据集更新，并向谷歌发送电子邮件反馈建议。

via Announcing AVA: A Finely Labeled Video Dataset for Human Action Understanding ，雷锋网 (公众号：雷锋网) AI科技评论编译

雷锋网版权文章，未经授权禁止转载。详情见。