精准识别!英特尔用6个Realsense摄像头实现全身动捕
很多玩家在置身VR 游戏 中的时候,总是会因为感觉不到自己的身体而“出戏”,使其无法完全沉浸在游戏中。为了解决这个问题,研发团队通过在游戏当中加入全身追踪技术,让玩家在游戏中也能够感受到“虚拟”身体。
不过,这类技术难度太大,而且需要花费开发者很多的时间和精力,因此在目前的 VR 体验中中,更多地是只针对用户手部及手臂进行追踪。比如,Leap Motion一直致力于研发手部追踪技术,其Orion手部追踪技术能够精准捕捉手部动作,为用户带来更自然的交互体验。
而最近,英特尔Realsense团队软件工程师Philip Krejov向大家展示了一种通过摄像头追踪全身的方案。据悉,这是一种基于深度学习的VR/AR人体动作识别技术,使用的硬件包括摄像机和HTC Vive追踪器,在性价比方面比全身服更有优势。
早在之前,许多VR公司就曾尝试融入全身追踪技术,比如OptiTrack开发全身动捕解决方案、Kaaya Tech推出的动作捕捉全身服Holosuit等。
那么 ,到底如何将全身追踪技术与VR体验相结合呢?
集成6个RealSense深感相机
据悉,Krejov使用了6个RealSense深感相机,Realsense相机在30分钟内提供了大约50,000张处理过的训练图像,而无需手动准备。
不过,多个相机同时使用就需要考虑时间同步的问题,还需要将它们校准到同一坐标空间。使用三角测量法时,可以采用软件同步的方式,但是对于这种更复杂的任务来说,为减少伪影的出现,就不得不考虑同步摄像头触发装置的方法。
Krejov的多视角捕捉法,需要将六台摄像机等距摆放在追踪目标周围。他表示,这时多台相机可以同时工作,甚至为每台相机设定需要捕捉的专属节点。
他还表示,这些相机需要通过校准,与统一的坐标系对齐,于是谈对将HTC Vive追踪器装在校准图表上,通过移动来校准相机摄像头和HTC Vive。这项多视角捕捉技术可实现更准确的自动标记,比如耸肩、抬腿等细微的动作。
多视角捕捉
Krejov提出的动作识别方案需要收集RGB和深度图像数据生成点云,这样每一个样本就各代表了人体表面的一点。与真实数据相比,合成的训练数据缺少了噪点等特性,这些噪点是很难模仿合成的。但是真实数据需要人工标记,因此在时间、成本和准确性上都有局限。
为了采集动作数据,美国卡内基梅隆大学曾研发全景式三角测量法,即先绘制手上关节的平面图,接着制作成手的3D模型,然后再重新投射到2D平面上,反复优化。
在全景式三角测量法基础上,Krejov提出了多视角捕捉的概念,这就需要使用更多摄像机,不过好处是能够采集到更准确的数据。另外,由于采集到的数据中动作比较单一,重新采集数据的情况也不可避免,目的是为了确保不同动作的数据量平均。
Krejov称,使用这种方法,就不再需要手动标记,只需监督拍摄过程,而且在30分钟内,就能够采集到5万张完成标记的训练样本。
手势和动作识别
这类型的识别技术分为机器学习法和模型拟合两大类,前者通过数据训练来识别身体部位(可估计每帧的关节位置),优点是能够达到很高的帧率,缺点是训练需要数百万张图片;后者利用符号距离转化功能将预先构建的人体或手部模型向点云数据靠近,缺点是需要多次模拟。
Krejov曾将机器学习和模型拟合相结合,编写了一款能够在40fps的CPU上运行的手势识别算法。他通过收集手部数据,然后将数据与模型拟合。同样适用这种方式的DoubleFusion技术,能够预测人体的动作,不过局限依然是对计算要求高。
通过以上方案,Krejov提出了全身动捕解决方案,为用户带来更为沉浸式的体验。
来源:87870