谷歌开源超大型视频数据库,含800万视频 (附技术报告)

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

9月28日,谷歌在官方博客上宣布,将含有800万个Youtube 视频URL 的视频数据库开源,视频总时长达到了50万个小时。一并发布的还有从包含了4800个知识图谱分类数据集中提取的视频级别标签。

谷歌开源超大型视频数据库,含800万视频 (附技术报告)
 

这一数据库在规模和覆盖的种类上都比现有的视频数据库有显著提升。例如,较为著名的Sports-1M数据库,就只由100万个Youtube 视频和500个运动类目。谷歌官方博客上说,在视频的数量和种类上,Youtube-8M代表的是几乎指数级的增长。

“为了保证标签视频数据库的稳定性和质量,我们只采用浏览量超过1000的公共视频资源,随后,我们会构建一个多样化的词汇类目,这一类目在视觉上是可以观察得到的,也足够频繁。词汇的构建结合了频次分析、自动过滤、人为评价验证,并分为24个垂直分类”,谷歌博客写道。

下图是数据集的首页截图,展示了数据集的规模和多样性。

谷歌开源超大型视频数据库,含800万视频 (附技术报告)
 
谷歌开源超大型视频数据库,含800万视频 (附技术报告)
 

要在Youtube-8M 规模的数据库上理解视频,一般要求千万亿字节的视频存储和几十个CPU的消耗。未来让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌们对视频进行了预处理,并提取了帧级别的特征。使用的是最新的深度学习技术——通过ImageNet训练的开源 Inception-V3 图像注释模型。

这些特征的提取是在1帧每秒的瞬时分辨率上完成,从190万个视频帧中提取,并被压缩到可以放到一个硬盘中(小于1.5T)。

这样以来,只需要不到一天的时间,就可以下载这一数据库并在训练一个基本的TensorFlow模型。

详细技术报告PPT

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)


 

谷歌开源超大型视频数据库,含800万视频 (附技术报告)

来源:Google Research

编译:弗格森

注:本稿件摘自数据观入驻自媒体—新智元,转载请注明来源,微信搜索“数据观”获取更多大数据资讯。

谷歌开源超大型视频数据库,含800万视频 (附技术报告)

 

责任编辑:陈卓阳

随意打赏

谷歌开源tensorflow谷歌开发新系统谷歌眼镜视频谷歌开源技术谷歌开源项目开源数据库谷歌开源开源中国
提交建议
微信扫一扫,分享给好友吧。