2017百度世界大会宣布BROAD百度AI公开数据集计划

砍柴网 • 7年前扫码分享

优质的机器学习质量离不开其背后的数据集，而一个优质数据集的开放，将为更多技术提供学习养分。11月16日，在2017百度世界大会AI技术与平台论坛上，百度3D视觉首席科学家杨睿刚宣布，推出百度AI公开数据集计划——BROAD Baidu Research Open-Access Dataset，并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众开放。

“BROAD”百度AI公开数据集计划（http://ai.baidu.com/broad）率先开放的三大数据集各有所长。室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知，进而了解图片中所有像素的属性和来源，实现更精准、安全的自动驾驶。它是世界第一个带像素级语义标签的室外3D视频。

视频精彩片段数据集主要来源于爱奇艺精彩视频片段。视频精彩片段数据集的视频类型为综艺节目，目前囊括1500个长视频，视频总时长约1200小时，还从中手动收取出18000个精彩小视频，同时能够提供视频帧的图片特征序列，是全球首创的开放精彩片段标注数据集。

首次亮相的百度阅读理解数据集DuReader，是迄今为止规模最大的中文开放领域阅读理解数据集。数据集基于真实应用需求，所有问题来源于百度搜索用户的真实问题，文档来自全网真实采样的网页文档和知道UGC文档，答案是基于问题与文档人工撰写生成的。数据集标注了问题类型、实体和观点等丰富信息，弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题，100万文档及42万人工撰写的优质答案，并提供开源基线系统。DuReader将为阅读理解技术研究提供有力支撑，加速相关技术和应用的发展。

2017百度世界大会宣布BROAD百度AI公开数据集计划

真实、海量无疑是“BROAD”百度AI公开数据集计划最好的形容词。作为全球最大的中文搜索引擎，百度积累了规模庞大、种类丰富的真实数据。百度日趋成熟的AI生态体系，也为系统开发图像、文字等AI领域数据，提供了有力的生态支持。开源数据集的目标，就是希望可以将百度多年积累的优质、庞大数据开放出来，为认知层、感知层的AI技术提供学习驱动。

2017百度世界大会宣布BROAD百度AI公开数据集计划

杨睿刚表示，这些数据是百度AI生态的真实数据，有些是首次发布，有些是目前国际同类型公开数据集中最大的。百度还计划在2018年推出供在校师生免费使用的BROAD云计算平台，共同推进AI技术的发展和落地。“采集数据是一个长久的过程，而数据开源也是百度长久的打算，更多精彩的内容将会逐步为大家呈现。”杨睿刚说，百度愿意和公众一起，持续开放真实、大规模的数据集，为推动AI发展和落地努力。