全球首份AR报告第五章:AR面临的挑战
监制:高宇雷 孔令舒
统筹:孙实
设计:于春慧
继智能手机、平板电脑之后,虚拟现实(VR)与增强现实(AR)有潜力成为下一个重大通用计算平台。
从当前来看,更多的公司选择从VR领域进行切入,各大研究公司、投行针对VR领域的研究报告也层出不穷,相比之下,AR领域却稍显平淡。
腾讯科技旗下VR次元发布全球首份AR行业报告,在这份报告中,我们将对AR的发展趋势、未来的挑战、潜在应用领域、可能创造和颠覆的市场进行分析和预测。
特别提示:微信上搜索“qqtechvr”,关注“VR次元”微信公众号,回复“AR”,即可获得AR报告PDF版。
以下为AR报告第五章:AR面临的挑战
对于AR而言,解决注册任务是最核心的问题。注册对精度的要求 极 为严格:由于AR应以实时、六个自由度的形式将虚拟信息和现实信息相融合,即便是轻微的注册失准都会造成组合视图难以容忍的失真。因此,移动AR存在两大难点:注册必须极为精准,注册对计算能力和内存的利用必须极为高效。
这个问题是AR面向大众部署所面临的终极挑战。我们断言,目前大部分已知的注册任务解决方案其实并不适用于智能手机——尽管看上去能用。因此,所有的AR研究人员都应该为智能手机AR的大空间应用问题开发专门的解决方案。
智能手机是AR大众市场最具前景的平台。智能手机生态系统为面向大众部署AR的纯软件解决方案提供了一切要素。然而不应忽视的是,尽管技术和逻辑取得了种种进步,但是AR应用在智能手机上的大规模部署仍然存在着下列重大障碍:
1、相机质量与成像处理。智能手机通常配备的相机传感器在弱光条件下表现糟糕:图像模糊,开始出现明显色差。相机传感器硬件通常禁止低层级访问。API只提供了相机传感器的高层级访问,无法控制曝光、光圈及焦距。小型CCD传感器导致相机采样噪点增加,进而严重影响后续CV算法的发挥。图像获取过程中的质量损失很难通过后期处理步骤补偿。
2、电量消耗。电池电量近年来并没有显著提升。相机传感器在以高帧率持续运行时耗电量很大,其主要原因是目前手机的设计用途仍然是拍照,而不是摄影。另外,传感器和网络接口也是耗电大户。运行功能强大的AR应用会让电池迅速耗干。因此,AR应用必须只能设计成供短时间使用,而不是一种“常开”功能。
3、网络依赖性。远程访问大量数据受到几个因素的影响。首先,网络延迟会导致令人不爽的延迟,拖累AR应用的瞬时表现。其次,访问远程数据仅在开了流量套餐时才有可能做到,而流量套餐可能过于昂贵或者无法开通。最后,某些地区的网络覆盖可能不满足条件。于是完全独立的AR应用成为了唯一的可行选择,这就意味着需要在设备上占用大量的存储空间。
4、可视化与交互的可能性。智能手机的外形因素在购买决策中发挥着重要作用。实际上,可接受最大设备的尺寸严格制约了显示屏的大小。交互技术同样存在着类似的限制。多点触控界面或许是最为先进的交互机制,但它在某些特定任务——如像素级的选取上表现糟糕。
理论上讲,针对AR改进未来智能手机需从哪些方面入手已是众所周知。在实践中,AR应用的开发者却要看硬件厂商和服务供应商的脸色,后者做出硬件发展决策的依据是市场预测,而其中可能不含对AR的需求。不过,硬件总体是朝着正确的方向发展的,尤其在移动游戏或移动导航系统的驱动下——而这两者与AR在技术需求方面存在许多共通之处。此外,研究人员意识到目前相机控制方面存在限制,更好的相机API也会因此诞生,比如Frankencamera项目。
尽管平板电脑作为一种流行移动平台也在不断壮大,但它属于放大版的智能手机平台。由于尺寸放大,可视化与交互的限制有了些许放松,但这些设备的尺寸和重量同时也制约着它们在AR领域的应用,原因是拿起来更加累人(比如说,把设备举起来较长时间可能需要两只手,反过来制约了交互的可能性)。除此之外,目前的平板电脑存在着与智能手机相同的问题。对于不同的AR应用而言,智能手机和平板电脑可能前者更适合,也可能后者更适合。
计算机视觉面临的挑战
智能手机的一大优势在于,定位不必单单依赖于相机传感器,也可以利用其它任意可用的传感器,如GPS,指南针,加速度计和陀螺仪。尽管其它传感器的使用在核心CV社区中往往被视为“作弊”,但这些传感器能够对开发实验室外快速、健壮的定位功能做出重大贡献。即便在结合了多种传感器的帮助下,基于CV的定位仍然非常困难,一系列原因列举如下:
纹理结构。大多数方法依赖于兴趣点外形上的自然特征,要求环境中各区域纹理足够清晰。兴趣点的主要问题在于,纹理的呈现形式至关重要。尤其在室内场景中,常常会有白墙出现,使得基于自然特征的定位方法很难发挥作用。
光照和天气条件。尽管自然特征描述器通常被设计为不受光照影响,但这一假设只有在描述实际物理特征的观测研究中成立。不幸的是,室外环境中大量以自然画面呈现的特征与实际物理特征并不相关。场景中物体投射的阴影会造成斑点、边角、线条的出现,还会随着光照或天气条件变化而动态移动。因此,存在着大量的会对定位质量产生严重影响的异常因素和不匹配因素,这与匹配算法的选择并无关系。
数据库规模大、易变化。对于室外环境而言,在定位之前必须采集大量数据并处理生成初始模型。利用昂贵设备的实时方法能够处理这一问题:然而,无法访问的区域仍然会造成最终模型中的孔洞(即未能构建地图的区域)。此外,得到的模型仅代表某个时间点的静态快照。环境中的任何变动,如商店橱窗的翻新,咖啡店遮阳伞的开闭,停车场汽车的去留,都会让数据采集生成的模型瞬间过时。另一个重要方面是通信通道(可能是移动网络)中最终模型的分发方式。由于这些模型通常体积颇大,整体还是拆分传输都会带来技术难题。
失准及丢失的传感信息。在室外定位中,GPS和指南针提供了关于设备大致位置和方向的极具价值的绝对信息。不幸的是,传感器并不健壮:在不同的地点,传感信息的准确度可能会有天壤之别。尤其是在狭窄的城市峡谷里,GPS信息可能会偏差100米,甚至会不可用。类似的是,磁干扰会严重影响电子指南针的读数,而磁干扰在人造环境中是不可避免的。
精准定位是AR亟待解决的最为重要的任务。但正如上面所述,仍然存在着一些重大挑战,仍需针对这些挑战寻找真正切实有效的解决方案。近来平板电脑AR的SLAM实施证明,如果上述条件(即纹理结构清晰)达到,就能充分实现小规模环境的定位注3。然而,大规模环境的定位仅存在于概念证明研究中。相关问题似乎难以攻克,因此只能等待技术的缓慢进步了。
其他挑战
除了实现算法研究成果的精度和可扩展性这样的学术目标外,还存在着一系列严重影响AR体验实用性的实际问题。这些因素仅与AR的实际应用相关,因此在科学文献中讨论较少。这或许会造成“这些问题不难解决或者与AR的成功不相关”的错误认识。下面列举了一些与智能手机有关、同时也与AR一般用途有关的问题:
实际的硬件发展与“AR心愿清单”的矛盾:目前智能手机中相机及其它传感器的质量不足以满足AR的高要求。硬件进步——如立体相机,CPU/GPU的统一随机寻址,WiFi三角定位——能够让AR应用的开发者极大受益。不幸的是,在AR尚未气候成熟时,期待手机会针对AR优化纯属幻想。硬件配置的任何变动会增加数百万美元的开发成本,倘若之后无法满足市场预期,搭上的钱还会更多。目前,消费者购买手机主要是为了语音通讯,游戏和网页浏览。这些市场将会驱动近期到中期的手机功能革新。我们必须说服设备厂家AR是手机应用的新兴市场,这样才能为AR争取到更先进的硬件。幸运的是,如今AR的关注度已成规模,因此不久的将来,手机针对AR的优化或将成为现实。
动态场景与AR真实感的矛盾。目前的AR应用假设场景中的一切事物都是静态的。然而,现实恰好与之相反。尤其在室外场景中,几乎所有物体都在变化:行人,光照和天气条件,甚至是建筑物每隔几年也会刷上新的颜色。定位会因此受到严重影响。在动态场景中,大多数算法的基本假设从一开始就是错误的。比如说你正在对一个建筑立面进行增强,行人路过挡住了部分视野。由于算法缺少阻挡推理,就算增强内容的视觉效果再好,未来硬件平台的性能再强大,也会出现碍眼的错误。动态物体与虚拟内容之间交互的缺失绝对会损害AR应用的真实感。因此,目前CV研究成果中物体动态检测与跟踪技术的加入是未来实现高质量AR的关键。
内容创作与注册的矛盾:AR之所以让人兴奋,很大程度上源于终端用户参与内容创作的发展前景。个人内容创作是促使用户积极参与而非被动观察的关键所在。然而,目前仍然没有实现这一概念的基本机制。尽管手机的交互方法得到了极大改进,但在没有精准全局环境模型的条件下,如何使用2D界面方便、精准地注册6自由度内容,这个问题仍未得到解答。就拿增强建筑物里面的一扇窗户举例,目前的方法甚至都无法搞定简单的标记任务。尚没有在开放空间内输入任意3D位置的机制,更别说明确指出方向了。目前决定标签的做法通常利用的是用户(不精准的)GPS位置,而不是兴趣物体本身。对于终端用户创作真实、理想的内容而言,在用户附近对任意位置进行精准注册一定要简单而健壮——然而,这又是一个超出CV基本范畴的研究难题。(顾秋实参与编译)