百度 PaddlePaddle AI 大赛冠军林天威专访:如何准确识别综艺视频中的「精彩片段」?
雷锋网 AI 研习社按,在电视综艺节目的摄制过程中,常常会出现十几、二十多台摄像机同时拍摄的情况,比如多台摄像机跟拍一个艺人。这样的一次跟拍耗时长,素材多,因此也给视频的后期和剪辑带来了非常多的不便,对于视频剪辑人员来说也颇为枯燥和繁琐。
这些视频素材一般会经历两个剪辑过程:首先初剪所有的视频素材,去掉明显不可用的镜头,然后再精剪。但不论哪个过程,都需要导演和剪辑师在剪辑过程中时刻判断哪些片段是需要留下来的,哪些片段能产生良好的观赏效果。虽然视频剪辑师们在识别「精彩镜头」方面有着丰富的经验,但当素材量很大或者需要在同一时刻的数个镜头里做出选择时,他们仍需要花费不少精力。
针对上述的行业痛点,12 月 28 日,百度和科赛网联合发起的「PaddlePaddle AI 大赛」正式开赛。本次大赛聚焦于电视综艺行业,百度 BROAD 数据集提供了来自爱奇艺的 1500 条总共 1200 小时电视综艺视频。参赛选手们要利用百度 PaddlePaddle 分布式深度学习平台及 BROAD 公开数据集,通过训练学习视频帧的图片特征序列,输出实际可用的影视行业预测精彩片段时间戳的算法模型,进而对任意一个未被标注精彩片段的长视频,输出其中精彩片段的时间戳,从而减轻视频剪辑师的工作压力。
经过 3 个月的角逐,来自上海交通大学自动化系计算机视觉实验室的在读研究生林天威在其导师赵旭老师的指导下获得了本次 PaddlePaddle AI 开发者大赛冠军,并受邀在百度 AI 开发者实战营上发表演讲。实际上,林天威已经是视频分析和理解领域的「老手」,在去年CVPR举办的ActivityNet Large Scale ActivityRecognition Challenge 上,林天威就获得了未修剪视频序列时序动作提名(TemporalAction Proposal)和时序动作定位(Temporal Action Localization)两项任务的冠军。
理解视频中人的动作和行为是计算机视觉领域里非常具有挑战性的问题,拥有很大的应用潜力。能够在两次视频分析挑战赛中夺得冠军,林天威在视频分析和处理方面有哪些独到的经验?雷锋网 (公众号:雷锋网) AI 研习社借此机会采访了林天威,向各位 AI 开发者分享他的学习和比赛经历。
以下是雷锋网 AI 研习社采访内容:
请问你参加这次百度 PaddlePaddle AI 挑战赛的初衷是什么?
我读研以来一直在做时序动作检测领域的研究,百度提出的 BROAD 数据集正好也是做时序检测任务的,所以我主要想通过 BROAD 数据集和这次竞赛来检测一下时序动作检测领域算法在实际问题与场景的应用中能获得怎样的效果。
对于本次比赛而言,你觉得你的方案有哪些创新之处能让你保持第一的成绩?
此次竞赛我直接使用了我近期投稿在 ECCV 的论文中的算法,其主要的创新之处是采用了由局部到整体(local to global)的算法框架,能够获得比较高质量的时序片段边界。由于该算法在 BROAD 数据集上直接跑的效果很好,所以竞赛中没有做模型融合,也没有添加额外的 trick。
比赛第一阶段使用的是已抽取的 10% 的视频训练集,而第二阶段使用的是全量视频数据训练集,这样的变化给你的训练带来怎样挑战?
训练时间以及训练时需要的内存更大一些,其余无影响。
视频帧的特征包括两部分,一个是图像的特征,一个是语音的特征,但本次比赛视频帧特征序列只从图像抽取特征,你觉得本次比赛的结果能否解决实际视频分析中的问题?
实际上复赛中可以使用语音的特征。对于精彩片段检测问题,由于定义和标注比较明确,所以此次竞赛中大家的算法能获得比较好的检测效果,我觉得可以用于实际场景中。
本次分析综艺视频的技术和经验能否应用于其他行业?比如安防?
此次竞赛其实是「时序动作检测」任务,我认为相关算法不太适合安防场景,因为安防场景通常需要:1)在线处理 2)同时定位图像中的目标位置。相对来说,时序动作检测算法更适合与这次竞赛类似的网络娱乐视频的分析、检测和推荐任务。
你曾经参加过 ActivityNet 视频行为分类比赛并获得了两项任务的冠军,那么参加 ActivityNet 比赛的经验对此次 PaddlePaddle AI 挑战赛有哪些借鉴之处?
实际上两者的任务非常相似(时序检测),BROAD 数据集的标注、测评代码也基本参考了 ActivityNet 中的设计。在 ActivityNet 和 PaddlePaddle AI 竞赛中,获得高质量结果都有两个要点:(1) 时序检测片段需要有精确的边界;(2)时序检测片段的置信度要准确,从而获得良好的排序。
本次挑战赛用到了百度 BROAD 的视频数据集,你觉得该数据集和你以前接触过的 ActivityNet、Kinetics、UCF-101、Moments in Time 等视频数据集相比有哪些特点?开发者在使用BROAD 的视频数据集训练模型时需要注意哪些事情?
BROAD 数据集的标注分布其实和 THUMOS-2014 比较像,但是包含的视频数量要多一些。BROAD 数据集的优点是提供了质量不错的特征,缺点则是类别和场景比较单一,若作为学术场景中使用我觉得多样性有些不足。
如果在用 BROAD 的视频数据集训练模型时,需要注意的点可能有:由于特征文件比较大,所以可以先对特征降采样(比如五分之一),再运行后面的算法。
你在 ActivityNet 比赛里获得两项任务的冠军,同时在 PaddlePaddleAI 挑战赛里一直保持着第一的好成绩,你有什么好的比赛经验或者建议可以分享给其他的开发者吗?
我参加的这两次竞赛实际上都算是学术性比较强的竞赛,而且我一直研究这个方向,所以对视频分析比较熟悉。我的建议是,如果是学术类的竞赛,还是要多看相关领域的论文;此外,在开始设计模型前,最好先对数据集本身的分布情况做一个详尽的分析。
通过这次比赛,你觉得百度的 PaddlePaddle 深度学习框架和其他的深度学习框架相比有什么特点?
本次比赛中开放使用的版本(paddlepaddle0.10)我觉得可能比较适合生产场景部署吧,作为学术研究的话灵活性比较差。后续的 fluid 接口在这方面应该会好一些。
目前你还在上海交大读研究生,毕业后你有怎样的打算?准备往哪个方向发展?
毕业后计划开始工作,个人希望进入安防或其他视频分析相关的方向发展。
想查阅上文所提到的论文以及获取更多视频分析经验,请访问林天威知乎和个人主页:
知乎:
https://www.zhihu.com/people/wzmsltw/activities
个人主页:
https://wzmsltw.github.io/
。