AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

雷锋网 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

“好家伙！”

“现在的Paper也是越来越皮了”。正在开心摸鱼的同事，边说边给我发过来一段Demo。

原来『宝藏男孩』特朗普又被玩坏了。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

『被逼着』跟蔡徐坤跳起了“鸡你太美”（谐音梗）。

（川宝：AI不讲武德！）

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

跟二次元萝莉跳起了萌系宅舞。

（ 川宝：给我顶小红帽，跳的比她好[傲娇脸]）

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

跟印度小哥跳起了Jackson的经典舞步。

（川宝：快看我的舞姿是不是很性感？）

看完Demo，正为找不到选题疯狂薅头发的小编我，一时也是惊住了：好家伙！今天的选题有了！！

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

火速让同事把资料推给了我。

原来逼着川宝大秀舞姿的是上海科技大学研究团队的最新AI，这项AI名为——《Liquid Warping GAN with Attention：A Unified Frame work for Human Images Synthesis》

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

简单理解就是，基于特定框架的AI，能够完成运动仿真、外观转换以及新视图合成等人体图像处理任务。上面特朗普的舞蹈Demo是AI合成的最终演示效果。 （获取完整视频见文末）

接下来我们来扒一扒它背后的合成原理。

『注意型液化GAN』模型

人体图像合成，在影视制作、游戏制作、角色动画/转换、虚拟服装试穿等方面有着巨大的潜在应用。

一般来讲，在给定一个源人体图像和参考图像下，它需要完成三项任务：

1、运动仿真：生成一个具有源人类纹理和参考人类姿势的图像。

2、新视图合成：从不同视角捕捉人体新图像并合成。

3、外观转换：在参照人体图像穿着衣服时，生成保持源面部身份的人类图像。（不同人可能穿同样的衣服）

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

在处理以上任务时，现有方法主要采用2D关键点来估计人体结构。

然而，它们仅表达位置信息，无法表征人的个性化形状并模拟肢体旋转。对此，研究人员提出了一套全新的模型处理框架：

它包括身体网格恢复模块（Body Mesh Recovery），流合成模块（Flow Composition），以及带有液体翘曲块（Liquid Warping Block ，LWB) 的GAN模块三个部分。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

Isi为给定源图像，lr为参考图像

其中，使用3D身体网格恢复模块用来解开人体姿势和形状，不仅可以模拟关节的位置和旋转，还可以表征个性化的身体形状；使用带有液体翘曲块（AttLWB）的GAN，保留纹理，样式，颜色和脸部身份等源信息；将图像和特征空间中的源信息传播到合成参考，通过去噪卷积自动编码器提取源特征，以很好地表征源身份。

具体方法如下：

Body Mesh Recovery： 其作用是预测运动姿态（肢体旋转）和形状参数，以及每个图像的三维网格。主要使用HMR进行三维姿态和形状估计。

Flow Composition ：在已有估计基础上，利用摄像机视图，为每个源网格和参考网格绘制一个对应图和一个权重索引图。主要使用完全可微的渲染器—神经网格渲染器（NMR）来完成。

Attentional Liquid Warping GAN： 该阶段负责合成高保真的人体图像。它需要完成：

1）合成背景图像。

采用Three-stream的方法：包括GBG流，对被遮罩的背景图像和在颜色信道中获得的掩模进行级联；源标识流GSID，引导编码器提取能够保留源信息的特征；源标识流GT-SF，由双线性取样器接收扭曲前景，对应映射作为输入，以合成最终结果。

2）基于可见部分预测不可见部分的颜色。

采用鉴别器进行识别，它是一个全局-局部内容导向（Global-Local Contentorientation）架构，包括全局鉴别器DGlobal，身体鉴别器DBody和面部鉴别器三个部分。

3）从SMPL重建中生成衣服、头发等像素。

这里主要采用了注意力液化块（如下图），它在旧有方法上解决了在人体运动仿真中，源图像多视点输入，以及在外观传递中，服装的不同部位来自不同的人等问题。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

除此之外，为了提高泛化能力，研究人员引入了一种一次/几次学习策略。

创建数据集

除了模型外，要想得到高保真输出效果，还需要有高质量的数据集。

研究人员建立了三个测试/训练数据集和一个评估数据集。分别为Impersonator、MotionSynthetic、FashionVideo和Youtube-Dancer-18.

Impersonator（iPER），是一个具有多种样式、不同人物穿不同衣服的数据集。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

它有206个视频、241564帧画面。涉及30名受试者，每个受试者穿着不同的衣服（共103件衣服。），表演一个A形视频和一个随机动作的视频。

另外，iPER还包括了他们的动作、服装、身高和体重分布等统计信息。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

MotionSynthetic运动合成数据集，创建该数据集的目的是便于对人体穿着的真实感进行综合评价，特别是通过合成的图像数据集，可以对不同的服装外观进行综合评价。

该数据集总共有120个网格，所有这些具有UV纹理图像的网格都已在SMPL中注册。对于每个网格，从Mixamo中选择一个姿势序列，从互联网上选择一个背景图像。基于网格、UV图像、姿势序列和背景图像等信息，采用核磁共振（NMR）对合成图像进行渲染，总共得到39529帧。

再根据不同的网格划分为8:2的训练/测试集，如下图中的合成图像。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

FashionVideo：它包含500个训练和100个测试视频，其中每个女模穿着Fashion的衣服，服装和质地千差万别，手势却很少。每个视频大约有350帧。另外，这个数据集缺乏背景的多样性，所有的背景都是黑色的。如图：

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

Youtube-Dancer-18：是作为评估数据集，对该方法的有效性和通用性进行检验。它全部是从YouTube平台下来来的，总共18个，每个视频持续4到12分钟。（如上图Dancer）

需要说明的是，研究人员没有在这个数据集中训练模型，只是对SN帧进行了个性化采样，并直接对该数据集进行测试，以评估现有所有方法的泛化能力。

经过实验分析，与现有其他方法，该方法在运动仿真、外观转换以及新视图合成三项综合任务上均达到了最佳性能。我们再来看一组演示Demo：

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

研究团队

如之前所述，这项AI研究团队来自上海科技大学。

高盛华，是上海科技大学副教授，博士生导师。也是该项研究的通讯作者。他2008年获得中国科技大学理学学士学位（优秀毕业生），2012年获得南洋理工大学博士学位，2012至2014年，在新加坡高级数字科学中心担任博士后。

他的研究兴趣包括计算机视觉和机器学习。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

该项研究的一作是上海科技大学在读博士—Wen Liu。

他的研究方向主要集中在人体三维重建、图像合成、运动传递、新视角合成、神经绘制和视频异常检测等方面。

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

其他作者还有：深圳腾讯AI实验室的首席研究员Lin Ma，主研计算机视觉、多模式深度学习领域；上海科技大学硕士Zhixin Piao，主要研究课题是人体三维重建和运动传递；上海科技大学本科毕业生Zhi Tu，研究课题是人体运动传递和医学图像分析；英国伦敦帝国理工学院博士罗文汉，其研究方向包括计算机视觉和机器学习的几个主题，如运动分析、图像/视频质量恢复、目标检测与识别、强化学习等。

论文地址： https://arxiv.org/pdf/2011.09055v2.pdf

YouTube地址： https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be

引用链接：

https://paperswithcode.com/paper/liquid-warping-gan-with-attention-a-unified#code

http://weibointl.api.weibo.com/share/189441008.html?weibo_id=4579529253719353

雷锋网雷锋网雷锋网 (公众号：雷锋网)

。