微软的野心：结合了AR与VR优点的新技术才是真正的未来

砍柴网 • 6年前扫码分享

2016年。微软研究院发布了一条有关其研发的Holoportation技术的视频，该技术可以通过一套系统让两个人跨越空间的障碍在同一个空间中进行面对面的交流，出现在你面前将是一个立体的活生生的人而不是视频通话那样只是一幅会动的画面。

Holoportation的核心技术在于对真人进行较为精细的实时三维重建同时进行海量的数据传输，这不仅是一项先进的MR技术，也是影视行业所梦寐以求的，微软研究院研发的这套系统据称被大量应用于影视行业，整套系统的研发成本更是超过百万美金。

时隔两年，微软研究院又在其官方网站上发布了一项名为Remixed Reality的新技术。

什么是Remixed Reality?这是一项结合了AR与 VR 的优点用于改进MR体验的技术。在上一代的Holoportation中，你只能观看和缩放眼前看到的物体，但是通过Remixed Reality技术，你将可以像使用AR设备一样看到周围的真实世界，并像在VR中一样对它们做出实时改变。

使用Remixed Reality技术时，用户将不再只能看到另一个人及其周围非常有限的空间，取而代之的是由8台Kinect完成的一个完整房间的三维重建图像。用户可以通过VR头显来以自身的视角观察三维重建而成的房间，因为三维重建是实时的，所以用户可以看到任何进出房间的人或者是家具以及其他房间环境的变化，甚至可以与房间内的任何实物进行互动。这也给予了用户全新的能力——在观看真实世界的同时对它进行视觉的改变。

在这项技术的宣传视频中，我们可以看到相比两年前的Holoportation，Remixed Reality赋予了用户非常多的新能力。Remixed Reality给与用户的能力可以分为四个大类，分别为操纵空间、改变外观、控制时间与改变视点。

操纵空间：

复制

移动

擦除

改变外观：

改变物体颜色

改变房间的光线

物体描边

改变画面风格

控制时间：

暂停

播放与倒放

改变视角：

让你拥有上帝视角

画中画功能

改变投影方式

如此酷炫的功能是如何做到的呢？

微软研究院的研究人员开发的这套RoomAlive系统主要分为两部分：数据采集与三维重建系统、显示与互动系统。8个Kinect V2为服务器提供大小约为4m×5m×2.5m的房间的深度信息以及色彩信息，服务器将这些信息进行压缩，并传输到一台连接了VR头显的PC上，在这台PC上完成信息解压缩与三维重建。显示与互动则是通过Unity与SteamVR完成的。

8台Kinect V2提供的数据量约为400Mb/s，在正常局域网（1000Mb/s）的带宽范围内，这意味着如果拥有更大的带宽的话，你可以继续增加Kinect的数量以增加数据采集的区域或是用来提高精度。Kinect的校准则是通过投影仪投影灰度图来实现的，其中用到了ICP（Iterative Closest Point）算法。

客户端的模型以每秒30帧的频率进行更新，但是每帧的模型数据之间没有联系，这就意味着如果你修改了其中某一帧的模型数据，下一帧中你的修改就会消失。如果要使模型的改动不会消失，则意味着你需要在帧与帧之间将三维模型进行匹配对齐，经过Kinect重建的三维模型有200多万个面，进行匹配算法根本无法实时完成。

为了能够与三维重建的模型进行实时交互并对模型进行修改，研究人员下了一番苦功。他们在程序中加入了由135万个三维像素组成的网格模型（150×150×60），每个三维像素代表了房间中大约3cm见方的空间。三维重建的模型与网格模型之间有一种对应关系，使得模型的变动得以在帧与帧之间以较小的代价传递下去。如此一来我们就可以对三维模型进行擦除、着色等不同的操作了。

拥有了这样的能力，Remixed Reality自然就拥有了更加丰富的玩法。你可以重播一整场会议，并挑选自己喜欢的位置坐下，也可以利用视点的转换来自己和自己玩一场躲避球的游戏。运动员们则可以利用这一系统来全方位的观察自己某一时刻的姿势是否正确并进行纠正，你也可以利用这套系统来剔除场景中的一些干扰物或者是人。这些是都是之前HoloLens以及Magic Leap One所无法做到的。

微软的研究人员认为，这整套系统可以让用户体验到不同程度的虚拟，从像HoloLens那样的完全真实的周围环境到VR那样完全虚拟的环境，Remixed Reality都可以做到。虽然目前人们可以修改的只是一个整体的三维模型，无法区分其中的某个物体，但在后续的工作中，他们将给这套系统加入场景理解系统，让其能够像Semantic Paintbrush那样将场景中的不同物体区分开来。

除了改变人们的视觉感知，未来微软研究员们还计划让这套系统能够改变用户的物理感知与时间感知，从而让用户能够体验零重力的环境或者是完全慢放的世界。这样的系统可以帮助进行很多心理学的实验，比如让用户体验灵魂出窍或者以他人的视角来观察世界。你也可能体会到生活在一个上下颠倒的世界是什么样的，拥有透视能力又是一种什么样的体验。无论如何，Remixed Reality跨出了控制我们看到的事物的第一步，并且让我们能够自由选择我们希望的沉浸程度。

Remixed Reality虽然极大的弥补了MR存在的一些不足，并拥有很大的想象空间，但也存在一些 不可忽视的缺陷 。

第一个问题是最终经过三维重建的模型表面贴图的分辨率受限于Kinect V2摄像头的分辨率。Kinect V2拥有色彩摄像头与深度摄像头，色彩摄像头的分辨率为1920×1080，而深度摄像头的分辨率仅为 512×424 。为了能够拍摄到房间的全貌，Kinect全部被安装于天花板上。

用8个Kinect覆盖一个 4m×5m×2.5m 的房间意味着每个Kinect都需要负责一块不小的区域，在总分辨率固定的情况下，负责的区域越大，区域内单个物体能够分到的像素数量就越少，而深度摄像头仅仅512×424的分辨率意味着三维重建的模型精度较低，且无法很好的还原曲面。

如果你有仔细观察视频中出现的人，面部的还原其实非常差。如果想要改善这一缺陷，则需要添加更多的Kinect，这却会对实时数据处理造成更大的负担。目前看来，Remixed Reality也只能优先保证实时性，精度和清晰度的问题则需要更高规格的硬件以及更先进的算法才能解决。

在演示中我们也能够看到三维重建的模型出现了空洞，这一问题的出现主要是因为物体的表面过于光滑或者是透明的导致摄像头对于这块区域的识别出现了问题，其实这也是目前Hololens、Magic Leap One的SLAM功能的通病。这个问题短期没有太好的解决方法，需要等到新的三维重建技术出现才有可能彻底摆脱这一问题。

另外目前的系统对一些比较复杂的环境进行三维重建时会有过多的区域被遮挡，无法获取真正完整的房间信息。在官方演示的视频中你可以很明显的看到三维重建的模型大多数是残缺不全的。

第三个问题则是如果你对周围的三维环境没有做修改，那么你可以自然的在虚拟环境中与现实中的物体进行互动，然而如果你进行了擦除或是切换视点的操作，这种交互就无法继续进行了。要解决这一问题，需要加入触觉重定位或者是其他的解决方案。

要开发出这样一套拥有着无限潜力和想象力的完整系统，可能还需要克服相当多的困难并花费很久的时间，让我们一起拭目以待吧。

来源：87870