逼真面部搞怪表情!Facebook升级VR化身技术Modular Codec Avatars
来源:映维网 作者 梦秋
Facebook的研究机构Facebook Reality Labs(FRL)一直在引领虚拟化身的研发工作,并致力于实现足以超越“恐怖谷效应”的效果。FRL的一项全新研究探索了新颖的面部表情支持,从而允许朋友在虚拟现实中准确地看到你的搞怪鬼脸。
相关论文 :Expressive Telepresence via Modular Codec Avatars
如今, VR 中的大多数虚拟化身都是卡通风格而非类人风格。这主要是为了避免“恐怖谷”问题:拟人程度达到一定程度的时候,人类的反映会突然变得负面。
1. 前任项目:Codec Avatars
Facebook Reality Labs的“Codec Avatar”项目旨在结合机器学习和计算机视觉,创建用户的超逼真复刻呈现,从而跨越恐怖谷效应。研究人员主要是训练系统理解一张人脸,然后再根据头显摄像头的输入来重现表情。这个项目已经展示过令人印象非常深刻的结果。
精确再现典型的面部姿态已经是一个巨大挑战,然后你又要需要处理无数的边缘情况,而任何一个都可能会令整个系统崩溃,并令虚拟化身回到恐怖谷效应。
Facebook的研究人员指出,最大的挑战是“对所有潜在(面部)表情制定一个统一的样本是不切实际的事情”,因为人脸变化有太多不同的方式。最终,这意味着系统的样本数据将存在一个缺口,这样它在看到新的面容时就会感到困惑。
2. 继任项目:Modular Codec Avatars
来自多伦多大学、Vector Institute和Facebook Reality Labs的研究人员Hang Chu, Shugao Ma, Fernando De la Torre, Sanja Fidler和Yaser Sheikh在名为“Expressive Telepresence via Modular Codec Avatars(通过Modular Codec Avatars实现表情临场感)”的新发表论文中提出了一个解决方案。
最初的Codec Avatar系统是将数据集中的整个面部表情与所看到的输入相匹配,而Modular Codec Avatar系统则是根据诸如眼睛和嘴巴等单个面部特征来划分任务,从而使其能够通过融合数个不同姿态的最佳匹配来合成最精确的面容姿态。
在Modular Codec Avatars中,模块化编码器首先在每个头显摄像头视图内提取信息。接着是一个模块合成器,它会根据从同一模块分支提取的信息来估计一个完整的面部表情及其混合权重。最后,聚合不同模块的多个估计三维人脸并形成最终的人脸输出。
团队的目标是优化表情范围,不需要向系统提供更多的训练数据即可精确地将其呈现。可以说,Modular Codec Avatar系统的目的是为了更好地推断出一张面容应该是什么样子,而原来的Codec Avatar系统则更多地依赖于直接比较。
3. 扮鬼脸的挑战
所述方法的一个主要优势是,其提高了系统重现新面部表情的能力,而这一点并没有针对相关表情进行训练,比如当人们故意以有趣的方式摆弄脸庞时。研究人员在论文中指出了这种特殊的优势:“做出有趣表情是 社交 活动的一部分。由于表现力更强,Modular Codec Avatar模型可以自然地,更好地促进这项任务。”
他们在测试中随机改变完全不同姿势的面部特征,如左眼{pose A},右眼{pose B},嘴巴{pose C},并观察系统是否能在给定不同的特征输入下产生逼真的结果。
研究人员表示:“(在上图中)可以看出,即便从未在训练集中完整地看到过,Modular Codec Avatars依然可以产生自然灵活的表情。”
作为系统这方面的终极挑战,我们非常期待它能够重现各种搞怪表情。
4. 眼睛放大
除了滑稽的面部表情外,研究人员发现Modular Codec Avatar系统同时可以消除穿戴头显时的固有眼睛姿态差异,从而提高面部真实感。
在实际的VR远程呈现中,我们观察到用户往往没有将眼睛完全自然地睁开。这可能是由于佩戴头显时肌肉压力过大,以及在眼睛附近显示光源。所以,我们引入一个眼睛放大控制旋钮来解决这个问题。
这允许系统巧妙地修改眼睛,使其更接近用户不在穿戴头显时的实际面容。
– – – – –
对于通过融合不同样本数据片段的特征来重建人脸,这样的概念本身并不新鲜,但研究人员表示,“我们的模块不是像以前的方法那样在3D网格上使用线性或浅层特征,而是在由深层神经网络学习的潜在空间中进行。这使得捕捉复杂的非线性效果成为可能,并以全新的真实感水平制作面部动画。”
这种方法同时是为了使这种化身表示更为实用。要Codec Avatars获得出色效果,所需的训练数据要求你捕捉真实用户的大量复杂面部姿态。Modular Codec Avatars则能在较少的训练数据下实现更高的表现力,并达到类似的效果。
要支持没有面容扫描机器的用户实现这等精确的面容呈现,我们尚需等待一定的时间。但随着技术的不断进步,总有一天用户可以通过智能 手机 应用来快速轻松地捕捉到自己的面部模型,将其上传,并把它作为跨越恐怖谷效应的虚拟化身的基础。
原文链接:https://yivian.com/news/76959.html