Petuum 提出对偶运动生成对抗网络：可合成逼真的视频未来帧和流

IT思维 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

公众号/机器之心

选自arXiv

作者：Xiaodan Liang、Lisa Lee、Wei Dai、Eric P. Xing

机器之心编译

对于自动驾驶系统而言，准确预测驾驶场景的未来情况对于驾驶安全而言至关重要。卡内基梅隆大学和 Petuum 的一项研究试图通过对偶对抗学习机制来解决这一问题，他们提出的对偶运动生成对抗网络在合成逼真的视频未来帧和流上都取得了很好的表现。机器之心对该研究的论文进行了编译介绍。

尽管用于监督学习的深度学习架构取得了很大的进展，但用于通用和可扩展的视觉任务的无监督视频表征学习仍然很大程度上仍未得到解决——尽管这也是一个关键的研究问题。最近，预测视频序列中的未来帧 [22,20,28] 已经成为了视频数据的无监督学习的一个很有希望的方向。

由于自然场景具有复杂的外观和运动动态，所以视频帧预测本身是一项很有挑战性的任务。直观上讲，为了预测未来帧中的实际像素值，模型必须要能理解像素层面的外观和运动变化，这样才能让之前帧的像素值流入到新的帧中。但是，大多数已有的当前最佳方法 [20,28,18,16,26,37] 都使用了生成式神经网络来直接合成未来视频帧的 RGB 像素值，无法明确建模固有的像素方面的运动轨迹，从而会导致预测结果模糊。尽管最近有些研究 [23,16,26] 试图通过设计能从之前的帧复制像素的运动场层（motion field layer）来缓解这一问题，但因为中间流不准确，预测结果往往有显著的伪影问题。

在这项工作中，我们开发了一种对偶运动生成对抗网络（dual motion Generative Adversarial Network）架构，可以使用一种对偶对抗学习机制（dual adversarial learning mechanism）来学习明确地将未来帧中的合成像素值与像素上的运动轨迹保持连贯。具体来说，它能同时根据一种共享的概率运动编码器而解决原始的未来帧预测（future-frame prediction）问题和对偶的未来流预测（future-flow prediction）问题。受 GAN [6,13] 的成功的启发，我们在两个未来帧和未来流生成器以及两个帧和流鉴别器之间建立了一种对偶对抗训练机制，以便得到与真实数据难以区分的预测结果。通过互相的彼此审查，这种基本的对偶学习机制将对未来像素的想象和流预测联系到了一起。我们的对偶运动 GAN 由如下三个完全可微分的模块构成：

概率运动编码器可以获取可能出现在不同位置的运动不确定性并为之前的帧产生隐含的运动表征，然后这些表征会被用作两个生成器的输入。
然后未来帧生成器会预测未来的帧，预测结果会在两个方面得到评估：帧鉴别器会对帧的逼真度进行评估，流鉴别器会根据之前帧和预测帧之间的估计的流而评估流的逼真度。
未来流生成器又会预测未来的流，这也会在两个方面得到评估：流鉴别器会对流的逼真度进行评估，帧鉴别器会根据推算得到的未来帧（是通过一个嵌套的流变形层（flow-warping layer）计算的）来评估帧的逼真度。

通过从两个对偶的对抗鉴别器学习对称的反馈信号，未来帧生成器和未来流生成器可以受益于彼此互补的目标，从而得到更好的识别预测。在使用了 KITTI 数据集 [5] 中车载摄像头拍摄的视频和来自 UCF-101 数据集 [27] 的消费者视频训练之后，我们的对偶运动 GAN 在合成接下来的帧以及自然场景的长期未来帧上的表现超过了所有已有的方法。我们还通过在另一个汽车摄像头拍摄的 Caltech 数据集 [3] 以及一个来自 YouTube 的行车记录仪原始视频集合上的测试证明了它的泛化能力。此外，我们还通过大量 ablation study（注：指移除模型和算法的某些功能或结构，看它们对该模型和算法的结果有何影响）表明了每个模块的设计选择的关键性。我们还在流估计、流预测和动作分类上进行了进一步的实验，结果表明了我们的模型在无监督视频表征学习上的优越性。

对偶运动 GAN

我们提出了对偶运动 GAN，这是一种用于视频预测的完全可微分的网络架构，能够联合解决原始的未来帧预测和对偶的未来流预测。图 1 给出了这种对偶运动 GAN 架构。我们的对偶运动 GAN 以视频序列为输入，通过融合未来帧预测与基于未来流的预测来预测下一帧。