详解百度成立第四大实验室AR Lab的背后

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

       伴着北京 2017 年的第一场雪,百度再次召集媒体开了一次 AR 复原北京老城门的活动,此前媒体曾被邀请去参观百度用 AR 复原朝阳门。

       不同的是,这次百度复原了老北京九大城门中的另外八座城门,还新增了两个玩法,并邀请了百度首席科学家吴恩达参加,同时宣布成立百度 AR Lab,要打造一个 AR 平台。

        AR 复原老北京九大城门

       百度这次选择了北京西直门的 2 号线和 13 号线换乘大厅、地铁 2 号线的一辆百度 AR 专列上,展示老北京内城九大城门的 100 年前老照片。九大城门分别是正阳门、德胜门、崇文门、朝阳门、西直门、东直门、阜成门、宣武门、安定门。

详解百度成立第四大实验室AR Lab的背后

       吴恩达在北京地铁西直门站

        百度提供了三种 AR 玩法:

        方法一:扫一扫

       打开手机百度App,点击拍照按钮,在通用模式下对准九大城门的老照片拍照,点击“发现AR动画”,然后继续对准手绘的城门触发图,便可看到已经消逝的北京老北京九大城门复现出来。

详解百度成立第四大实验室AR Lab的背后

        方法二:搜一搜

       打开手机百度App,搜索九大城门关键词,点击搜索结果中信息卡片(阿拉丁卡片),摄像头自动调起,对准任何纹理丰富的物体(如手心、键盘、杂志、公交卡等等),即可看到九大城门的AR效果(见下图)。

详解百度成立第四大实验室AR Lab的背后

       手机百度搜索“正阳门”,手心触发AR

        方法三:实景触发

       正阳门的实景触发也已经实现,并采用 SLAM 技术(Simultaneous Localization And Mapping,即时定位与地图构建技术)。只需用手机或平板对准正阳门,就能触发 3D AR 内容(见下图)。不过这次只演示了 Demo ,用户还无法使用。

详解百度成立第四大实验室AR Lab的背后

        SLAM 技术和 UDT 技术

       百度此次展示的 AR 技术比复原朝阳门时更进一步,上一次用户只能用手机百度对准老城门的画作来触发 AR,这次是直接对准老照片,识别难度更高。同时还新增了搜一搜和实景触发两种玩法,背后分别对应的是 UDT 技术和 SLAM 技术。

        SLAM 技术

       本次在正阳门实景触发测试中,百度采用了自主研发的 SLAM 技术。SLAM 技术是机器人(计算机)在未知的环境下,利用传感器 (camera, laser, IMU 等) 来估计自身的姿态 (包括位置和朝向),同时建立周围环境的地图。SLAM 在无人车、无人机和 AR 上都有非常重要的应用。百度研发的 SLAM 技术可以做到低功耗、高实时性,支持多种数据源,比如单目、双目、RGBD 等。

       SLAM 与 IMU 技术的区别:

       手机端 IMU (Inertial Measurement Unit) 惯性测量单元误差较大,只适合估计手机朝向(3 自由度),比如横屏/竖屏,倾斜等方向,不能用来估计位置计算。SLAM 不仅能估计手机三维朝向,还能估计手机的三维位置(6 自由度)。

详解百度成立第四大实验室AR Lab的背后

详解百度成立第四大实验室AR Lab的背后

       SLAM技术与IMU技术区别图

       对于 AR 来讲,传统的虚实结合是在二维图像上叠加虚拟三维物体。视觉 SLAM 算法可以使得 AR 系统理解周围的三维环境,从而把虚拟的物体放到合适的位置。更进一步,虚拟物体可以与现实的三维环境发生交互,产生更有趣的交互方式。

       SLAM的核心有两个部分:

       第一部分是估计计算机的姿态(计算机在三维空间中的位置和朝向信息)。

       第二部分是建立周围环境的三维地图(稀疏或者稠密的三维点云)。

       对于 AR 广告,SLAM 可以让广告不再受限于预先制定好的海报、平面包装等。例如,用户可以在家里打开手机百度,查看一款网上的沙发和客厅是否搭配,或者可口可乐公司做一款AR广告,让运动员围绕可乐罐跑步等。

       百度 SLAM 技术基本情况与上线时间

       百度 ARLab 负责人吴中勤向笔者介绍了百度 SLAM 技术的基本情况,并透露未来三个月这项技术将上线到手机百度,他说:

       其实 SLAM 这套技术百度最早有积累的,我们最早有一个无人机的团队,在那个团队里面我们要解决无人测试导航定位的问题,一定要先上这一套技术,当时我们开始了研发。无人机那个项目做了一段时间之后,就觉得它的场景比较偏少,所以我们同时还有一个无人车的项目,其实无人车的项目里面我们 SLAM 得到了最大的应用发挥。

       这一次的这套技术其实跟那个框架有类似的地方,它的特点就是不像无人车一样具有这么好的传感器和这么丰富的电源,所以更多的使用一些额外的技术。比如说我们这边使用的技术就会更加考虑视觉帧与帧之间的关联和空间中的定位。它对性能的要求特别高,而手机本身的计算能力不是特别强,同时支持多帧的采样,这个角度我们做了大量工作。

       我们技术上基本上准备好了,后面有很多优化工作让他体验更好,等大小和体积这方面打磨好,我们就会在大概三个月的时间上线这样一个功能。

        UDT 技术

       传统基于图像跟踪的 AR 技术需要预先确定一张图片,用户必须有一张完全相同的图像,才能展示AR。通过 UDT (User Defined Target) 用户自定义目标技术,这个限制被去掉,让用户随手找一张有纹理的图案即可展示AR效果(如公交卡,图书,手心、键盘等)。UDT利用多线程、GPU等加速算法,可以实时估计图像中的复杂特征信息,从而计算出空间三维位置。

        成立 AR Lab,打造 AR 平台

       借着展示复原老北京九大城门这个机会,百度宣布成立第四大实验室——增强现实实验室(AR Lab),由吴中勤负责,属于由首席科学家吴恩达负责的百度研究院。百度研究院此前已经拥有了三大实验室:硅谷人工智能实验室、北京深度学习实验室(原深度学习研究院)和北京大数据实验室。

详解百度成立第四大实验室AR Lab的背后

       百度 AR 技术架构图

       据吴中勤介绍,百度移动端的 AR 技术共分图像识别、三维感知与跟踪、人机交互、三维渲染与虚实融合四大部分:

       物体识别是AR的基础功能,通过摄像头识别场景中的物体,触发相关AR,并在云端找到相应的虚拟物体与信息。目前主要 AR 技术非常依赖图像识别技术,从图像识别来说,百度有整个互联网的大几百亿的图片数据,而且识别的速度非常快,如果大家使用过我们拍照识别的软件,可以知道它能够以非常快的速度(大概小几百毫秒)返回结果,在四五百亿的图片库里面进行快速的检索。

       三维感知与跟踪则通过自主研发的相机追踪算法为AR提供快速稳定的相机姿态估算结果,适应AR技术在移动设备上的运行要求。我们在跟踪速度上可以做到 10 毫秒级的快速跟踪,完全可以做离线的计算,同时还有比较强的抗干扰能力,就是对画面的遮挡,对物体部分的遮挡可以快速的响应还有快速的重定位,当摄像头移开的时候可以计算到摄像头重新定位的方位。

       人机交技术可利用语音和手势减少用户触屏操作,为用户带来更好的交互体验。比如说语音识别,百度的语音识别拥有非常高的精确度,达到97%。

       跨平台的三维渲染引擎可以将虚拟三维物体渲染到现实环境中,从而实现虚实融合效果。我们的3D渲染目前可以做到跨平台,体量可以做到 1M 左右,这样互联网上大部分移动 APP 都可以集成这样一个 SDK 和 AR 服务 。

详解百度成立第四大实验室AR Lab的背后

       百度 ARLab 负责人吴中勤

       AR 平台

       百度 AR 的产品主要是以平台的形式面向 行业合作伙伴,推出了DuMix 产品体系。这个体系主要包含 AR SDK 和 AR 编辑器。其中 AR SDK 支持 iOS 和 Android,包括渲染引擎和底层算法;AR 编辑器包括 AR 行业模板和 3D 快速建模工具。

详解百度成立第四大实验室AR Lab的背后

       DuMix 产品体系

       据吴中勤介绍, 百度 AR SDK 可以支持实际物体的 AR,也可以支持整个以 AR 驱动的互动游戏,比如说没有触发物,基于手部、人脸会有特殊的一些互动效果。百度里面目前几个比较大体量的移动 APP 都已经支持这样的效果,大家陆续都会在各个场合看到百度系的软件具备这样的能力。

       DuMix 可以支持各种各样的 应用 场景,百度在现场列举了 AR 游戏、AR 娱乐和 AR 旅游。并以品牌营销为例,介绍了一个 Dumix 的 应用 流程(见下图)。

详解百度成立第四大实验室AR Lab的背后

        吴恩达:AI 技术是 AR 的核心

详解百度成立第四大实验室AR Lab的背后

       吴恩达这次是专程从美国回来参加百度 AR 复原北京老城门活动的,他对笔者透露,自己 60% 时间在硅谷,40% 在中国。吴恩达对 AR 非常看好,并且他认为 AI 技术是 AR 的核心,而百度内部认为人工智能是新的电能。他说:

       今天最核心的人工智能技术就是图像技术,因为需要使用图像技术来理解这张图里面的内容到底是什么,也需要用图像技术来做视觉定位,才可以实时把虚拟技术放进去,如果有人脸也可以叠加虚拟内容。

       未来人工智能还有好几个技术会对 AR 非常重要,因为如果你拿着手机去看AR的内容,如果你想跟你的手机交互,最重要、最方便的方式就是自己讲话,所以我们团队也在探索怎么样用语音识别让你一边看增强现实内容,一边跟他交互。

       我们已经跟很多公司合作,为用户提供了很多非常有意思的增强现实的内容,其实我觉得AR的未来是有非常大的潜力。今天AR为历史领域带来非常有意义的体验,我希望未来AR也可以在很多领域,包括教育、医疗、理疗、旅游、生活等等也为人机交互带来改变,让大家更自然、更方便的探索世界。

       我觉得今天AR的技术已经做的不错,不过我们还有很大的空间把这些AR技术做的更好。

详解百度成立第四大实验室AR Lab的背后

       在接受媒体采访时,吴恩达表示百度开始 AR 方面的工作大概是两年前,并认为相比眼镜,手机会是更方便 AR 应用平台。

       在国外有人做 AR 或者 VR 的硬件,我觉得如果我们想为很多用户提供 AR 体验,可以把 AR 体验放进手机端,用户比较方便,不需要买好几千块的这种东西。

       在提到中美 AR 发展对比时,他认为 AR 技术在中国的发展会比美国快。

       我觉得AR在中国比美国发展要快,有两个想法。首先,美国很多人都是先使用PC,习惯用PC后来才开始用手机,所以很多手机的创新工作都是在中国先看到。

       另外一个原因就是中国有比较多人聚在一个城市里,AR 也是手机端的一个例子,因为中国的人比较多,在地铁有不少人坐地铁,所以把 AR 的图象切进去地铁,就可以给非常多人体验。

        AR:BAT 的新战场

       AR 正成为下一个大技术热点 ,目前,不仅是百度,BAT 三巨头都在积极布局 AR 技术。

       阿里这边,支付宝推 AR 实景红包,淘宝对VR购物进行了探索,阿里还投资了 AR 初创公司 Magic Leap;

       腾讯方面,QQ 除了也推 AR 实景红包,还玩过 AR 火炬等各种应用,有超过 1 亿用户参与,而根据笔者获得的消息,腾讯今年还将推出名为 QAR 的 AR 开放平台,将 AR 集成到旗下各大应用中去。

       百度的 AR 开放平台,加上腾讯 AR 开放平台 QAR,以及阿里在 AR 领域的众多探索,显示出,BAT 又在 AR 领域聚首了。

本文被转载1次

首发媒体 物联网的那些事 | 转发媒体

随意打赏

百度人工智能实验室百度大数据实验室百度实验室
提交建议
微信扫一扫,分享给好友吧。