微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

搜狐科技 • 8年前扫码分享

1 新智元编译 1

来源：microsoft.com

作者： Winnie Cui，Senior Research Program Manager，Microsoft Research Asia

译者：刘小芹、弗格森、王楠

　　 【重要通知：世界人工智能大会现场一律凭活动行二维码入场，不接受现金购票，分论坛票只有下午可以入场】 2016 世界人工智能大会活动行浏览过 5 万，大会售票进入尾声，还有一些已购票付款的公司和机构未换二维码。活动行在大会现场设有咨询席位，但提前换二维码节省签到时间。请团购注册的公司关注，务必提醒参会的同事们手机接收二维码，如果不清晰可以打印出来，现场在签到处换领大会嘉宾胸卡。

　　 AI World 2016 世界人工智能大会（点击查看演讲剧透！） 【倒计时 6 天，点击“阅读原文”抢票】 ? 业界领袖回溯 60 年 AI 历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；? 国际大咖“视频”远程参会， Bengio 和李飞飞联袂寄语中国人工智能；? 探秘讯飞超脑及华为诺亚方舟实验室，最强 CTO与八大研究院院长交锋；? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；? 中国“大狗”与"X-Dog"震撼亮相，龙泉寺机器僧“贤二”卖萌。

　　 【新智元导读】 台湾国立清华大学与微软合作，首次实现了让机器自动生成视频标题。他们创建了一个系统，可以由机器人观看视频、找出视频中的亮点，然后生成简洁、吸引眼球的标题，并将视频推荐给目标观众。研究人员表示，这项研究使机器学习能够理解用户上传的视频中的视觉内容，让我们离视觉智能的圣杯更近了一步。本文还介绍了微软 VideoToText 挑战赛及用于实现句子和视频转换的大型数据库 MST-VTT 【进入新智元公众号，直接在对话框输入“1012”，下载论文 （附 VideoToText 挑战赛介绍） 】

　　当你的祖母上传一个视频到云端，它会躺在那里，孤零零的，没有人观看，除非你的祖母比我奶奶更会给视频取标题和打标签。我奶奶非常喜欢用手机拍摄家庭录像，虽然她拍的内容很有趣，她却不是很擅长吸引观众。虽然我和姐姐可能会喜欢看那些视频，但它们却几乎不可能被其他人看到。

　　我想你的祖母（以及朋友、同事、家人）可能与我奶奶一样，因为用户上传的、储存在云端的视频有很大一部分的观看量很少。现在，人工智能研究的成果能为这些用户带来帮助。这项研究能让你很方便地找到用户上传的视频，包括你爷爷在你表弟的婚礼上跳舞时假牙掉下来的有趣剪辑。

　　机器学习理解 UGC 视频，生成亮点描述

　　台湾国立清华大学电子工程系教授林嘉文和孙敏利用机器学习解决了这个问题。他们创建了一个系统，可以由机器人观看视频、找出视频中的亮点，为其添加一个相关的标题以便搜索，并将视频推荐给目标观众。

　　孙敏说：“我们的研究使我们离视觉智能的圣杯更近了一步，机器学习能够理解用户上传的视频中的视觉内容。”

　　孙敏教授开发了一种生成视频标题的新方法，该方法利用深度学习自动找到视频中的特殊时刻或亮点内容，并根据这些亮点内容生成准确有趣的标题。同时，林嘉文教授开发了一种能自动检测视频中的人脸的方法，这能为视频生成更丰富的描述，并为分享这些视频的用户提供相关推荐。他们合作的算法能检测视频的重要内容，生成视频亮点的描述，并标记潜在观众。

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

　　两位教授的研究受到微软 COCO（Common Objects in Context）的启发。COCO 是一个新的图像识别、分割及标题生成数据集，它识别了语境下的超过 300000 幅图像，因为视频本质上是一系列的图像，这个数据集也可以用于帮助生成视频标题。两位教授在 2015 年与微软亚洲研究院的首席研究员陶玫博士合作，使用 COCO 的说明文字进行句子扩充，并且利用 MSCOCO 的数据来训练他们的系统。他们的研究结果发表在 arxiv 【进入新智元公众号，直接在对话框输入“1012”，下载论文 （附 VideoToText 挑战赛介绍） 】。

　　目前，该系统已经分析了 18000 个视频的亮点内容，生成了 44000 个标题/描述。为了进一步改进系统，孙教授和他的学生参加了微软研究院发起的 VideoToText 挑战赛，使用比赛中发布的数据来验证他们的系统。他们的研究将在2016年10月8日~16日的ECCV（欧洲计算机视觉大会）上发表。孙敏教授和陶玫博士已经开始进行他们的合作研究的下一个阶段，研究为个人照片生成故事说明。

　　如果你也对视觉智能研究感兴趣，我们的计算机视觉 API 会对你有帮助。它能从任何图像中提取丰富的信息，并对视觉数据进行分类和处理。你也可以使用我们在GitHub上发布的范例来自己做一个生成视频标题的 App。不妨试试看！

微软计算机视觉 API：https://www.microsoft.com/cognitive-services/en-us/computer-vision-api
Github 官网：https://github.com/Microsoft/Cognitive-Samples-VideoFrameAnalysis/

　　微软 VideoToText 挑战赛 & MSR-VTT 开源数据库

　　视频在互联网、广播频道和个人设备上变得越来越常见，促使在大量的应用中，出现了用于分析视频内容语义的先进技术。视频识别一直是几十年来计算机视觉中的绝大难题。此前的研究大部分都着眼于识别预先定义而且非常有限的词汇。

　　本挑战赛需要再进一步，把目标视频内容转化成一个完整和自然文字句子。

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

　　 微软将会发布 Video to Text （MSR-VTT），这是一个开源的大规模视频基准，用于实现视频与语言之间的转换（具体时间关注新智元后续报道）。 MSR-VTT 数据库包含了 41.2 小时的视频和 200 K 短语，覆盖了最全的种类和最多样化的视觉内容。在句子和词汇上目前做到了最大。

　　数据库可以被用于训练和评估视频到语言的转换任务，在不远的未来，也可以用于其他一些任务，比如，视频检索、事件监测、视频分类等等。这一挑战赛将允许使用外部数据来训练和挑战算法的参数。

　　对于有兴趣参赛的读者，下面简单介绍 VideoToText 挑战赛（详细内容可以下载论文查看）。

　　 任务描述

　　今年的比赛将聚焦于视频到语言的转化任务。给定一个输入视频片段，其目标是自动的生产一个完整的自然语言句子，描述视频中的内容，把视频中的信息提取出来。

　　参赛者需要根据提供的MSR-VTT数据库（作为训练数据），或者别的任何公共、私人数据开发语言模型，来识别图像或者视频中大量的物体、场景和事件。为了满足评价标准，一个参赛系统至少需要产生关于视频的一个描述。其准确率被用于与人类写成的描述进行比较。

　　 提交样本

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

　　 评价标准

　　最后评价的标准将取决于在MSR-VTT测试集上取得的结果，会对多项常用标准进行评价，其中包括BLEU@4, METEOR, ROUGE-L, and CIDEr-D。

　　此外，竞赛还会加入人为测评。标准如下：

连贯性：判断句子的逻辑和可读性
相关性：句子中有没有包含更加重要和相关的信息
对盲人的帮助性（额外标准）：这句子对于盲人理解视频是否有帮助

　　论文：为用户生成的视频生成标题

作者：Kuo-Hao Zeng, Tseng-Hung Chen, Juan Carlos Niebles, Min Sun

摘要

　　一个好的视频标题能够简洁明了地描述最显著的特征同时吸引观众的眼球。相比之下，视频描述（video captioning）往往生成的是描述整个视频的句子。尽管自动生成视频的标题十分有用，但受的关注却远不如视频描述。我们结合两种方法，首次实现了自动生成视频标题的任务，这两种方法都是当前最先进的视频描述技术的扩展。

　　首先，我们使用一个重点检测器（highlight detector）对视频描述生成器进行初始化，让视频描述生成器能够关注重点部分。我们的框架能够同时训练标题生成模型和视频重点定位模型。然后，我们将高度句子多样性引入视频描述生成器，这样生成的标题听上去就多样而且上口。这意味着系统需要大量的句子作为训练数据，学习标题的句子结构。

　　因此，我们提出了一种全新的句子增强（sentence augmentation）法，使用仅含有句子的样本对其进行训练，这些句子都是之前没有用过的，而且也没有对应的视频。我们收集了一个大规模的 Video Titles in the Wild（VTW）数据集，含有 1.81 万机器从网上自动获得的用户生成的视频和标题。在 VTW 上面，我们的方法持续提高标题预测的准确率，在自动评估和人类评估两方面都取得了最好的成果。最后，我们的句子增强法还超过了 M-VAD 数据集的基准。

　　 【进入新智元公众号，直接在对话框输入“1012”下载论文（附VideoToText挑战赛介绍）】

　　编译来源：https://www.microsoft.com/en-us/research/bots-generate-video-titles-and-tags-to-bring-ai-researchers-one-step-closer-to-visual-intelligence/

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

　　 豪华嘉宾阵容，共飨 AI 盛宴

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库

　　 8 大院长齐聚新智元智库院长圆桌论坛

　　 2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”，重量级研究院院长8仙过海，带来最前沿的AI研究动态、剖析技术发展趋势。

　　八位人工智能界“高手”现场过招，思想的激烈碰撞会给目前的人工智能发展带来哪些洞见？八位院长对行业的发展会有哪些前瞻揭秘？10月18日下午，2016 世界人工智能大会技术论坛，答案将逐层揭晓。

　　新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲工程院院长刘震、IBM中国研究院副院长邵凌、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

2016世界人工智能大会技术论坛议程

　　微软视觉智能技术突破: 首次 bot 生成视频标题，将开源大型数据库