深度 | 谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移(附论文)
选自Google Research
作者:Vincent Dumoulin、Jonathon Shlens、Manjunath Kudlur
机器之心编译
参与:李亚洲、吴攀
pastiche 是一个法语词,它的意思是将一件艺术品模仿另一件艺术品的风格(请不要与看起来和它接近的更幽默的希腊源词 parody 混淆)。尽管这种方法已经在视觉、音乐和文学等艺术领域被使用了很长一段时间,但 pastiche 直到最近才在 Reddit 网络论坛(https://www.reddit.com/r/deepstyle/)上将大众的注意力吸引到了给图像染上著名画作的风格的任务上。通过使用一种叫做风格迁移(style transfer)的技术,用户可以通过手机或网页应用让他们自己的图片带上著名艺术作品的风格。
尽管用户已经能通过当前的技术得到美轮美奂的 pastiche 了,但我们觉得我们可以将其做得更吸引人。目前,每一种画作都有它自己的独特风格,也就是说:用户提供一张内容图像,选择一种艺术风格,然后得到一张 pastiche。但如果我们能结合多种不同的风格,探索著名艺术家风格的独特混合从而创造出一种完全独特的 pastiche 呢?
学习艺术风格的表征
在我们的论文《A Learned Representation for Artistic Style》中,我们介绍一种可以让单个深度卷积风格迁移网络(deep convolutional style transfer network)同时学习多种风格的简单方法。该网络在学习了多种风格之后可以做到 style interpolation(风格插补),其中 pastiche 可以平滑地从一种风格变成另一种风格。我们的方法也能实现实时的风格插补,让其不仅可以应用于静态图像,还可应用于视频。
扮演者:Google Brain 团队办公室的狗 Picabo
在上面的视频中,多种风格被实时地结合到了一起,最后得到的风格通过一个单风格迁移网络(single style transfer network)得到了应用。其用户可获得 13 种不同的绘画风格,可以通过滑块调整最终风格中这些风格的相对强度。在这个演示中,该用户是产生该 pastiche 的一位活跃的参与者。
风格迁移简史
尽管将一张图像的风格迁移成另一张的风格的技术已经存在了近 15 年时间 [1][2],但利用神经网络来做这件事还是最近才出现的,而且这很吸引人。在论文《A Neural Algorithm of Artistic Style》,研究者 Gatys、Ecker 和 Bethge 介绍了一种使用深度卷积神经网络(CNN)分类器的方法。其 pastiche 图像是通过优化(optimization)找到的:该算法会寻找一张给出了该 CNN 的底层中同种类型激活(activation)的图像,这些底层会获取风格输入(宽笔触和立体美感等等)的整体粗糙美感;该算法还会在更高层产生激活,这是获取能使对象可被识别出来的东西,这接近于那些由内容图像所得出来的东西。从某个起始点(如:随机噪声或内容图像本身)开始,该 pastiche 会逐渐细化直到这些要求都得到满足。
内容图像:Andreas Praefcke 拍摄的 Tübingen Neckarfront;提供风格的画作:Georges Rouault 的「Head of a Clown」
通过这个算法生成的这个 pastiche 看起来很壮观(spectacular):图片来自 L. Gatys et al. "A Neural Algorithm of Artistic Style" (2015).
该成果被认为是深度学习研究领域的一项突破,因为它首次提供了基于神经网络的风格迁移的概念证明。不幸的是,这种为单张图像施加风格的方法对计算的要求很高。比如说,在网络上首次可用的演示中,用户需要将图片上传到一个服务器,然后还要等上足够喝一杯咖啡的时间才能得到结果。
后续的研究 [4,5] 为这一过程提速了不少,这些研究认识到可以将这个优化问题转变成图像变换问题(image transformation problem),其希望将单个固定的风格应用到任意一张内容图像(比如一张照片)上。然后该问题就可以这样被解决:训练一个前馈的深度卷积神经网络来调整内容图像的 corpus 以使之匹配某画作的风格。这个训练出的网络有两重目的:保持原有图像的内容,同时匹配绘画的视觉风格。
这样得到的最终结果是:一旦在一张静态图像上花了几分钟后,就可以实时运行了(例如,将风格迁移应用于实时视频)。但是,实现实时风格迁移的速度提升是有代价的――一个给定的风格迁移网络只能固定于一种单一画作的风格,失去了一些原来的算法的灵活性,因为原来的算法并不固定于任何一种风格。这意味着:如果要开发一个能够建模 100 幅画的风格迁移系统,就需要训练和存储 100 个单独的风格迁移网络。
我们的贡献:学习并结合多种风格
我们开始于对印象派时期的许多艺术家的观察,采用类似的笔触和调色板。此外,说到莫奈的画,视觉上更是相似。
Poppy Field (左) 和 Impression, Sunrise (右) by Claude Monet
我们在机器学习系统的训练中用到了这一观察。也就是,我们训练一个能够捕捉且概括众多莫奈作品、或者其他流派不同画家作品的单个系统。产生的 pastiche 足以媲美之前工作产生的画,同时源自同样的风格迁移网络。
由我们的单网络产生的 pastiche 实在 32 个不同的风格上训练得到的。这些画质量上等同于由单风格网络创造的作品。
我们开发的该技术简单易部署,也不需要密集的存储。此外,我们的网络在数个艺术风格上进行训练,允许实时结合多个绘画风格,就像文中视频展示的那样。下面就是 4 种风格按不同比例结合的成果:
不像之前快速迁移风格的方法,我们认为这种同时建模多种风格的方法开启了一种让用户与风格迁移算法交互的新方式,不仅是允许基于多个风格的混合进行自由创造,而是这个过程是实时的。
关于该算法的细节和运行该模型的 TensorFlow 源代码将在未来发布。
-
论文:A Learned Representation For Artistic Style
摘要:绘画风格的多样性对构建图像而言代表丰富的视觉词汇。如果不是通常画像,学习或捕捉这些视觉词汇的程度表达出了我们对更高层次绘画的理解。在此研究中,我们调查了如何构建单个、可延展深度网络,能够贪婪的捕捉不同派别的艺术风格。我们证明这样的网络能够通过将一种绘画降低到到嵌入空间的一个点,从而概括不同的艺术风格。重要的是,该模型允许用户通过任意结合单个绘画的风格来探索新的绘画风格。我们希望这项研究能够为迈向建立丰富的绘画模型提供帮助,也希望在艺术风格表征学习的建构上提供一个窗口。
References
[1] Efros, Alexei A., and William T. Freeman. Image quilting for texture synthesis and transfer (2001).
[2] Hertzmann, Aaron, Charles E. Jacobs, Nuria Oliver, Brian Curless, and David H. Salesin. Image analogies (2001).
[3] Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. A Neural Algorithm of Artistic Style (2015).
[4] Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).
[5] Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. Perceptual Losses for Real-Time Style Transfer and Super-Resolution (2016).
©本文由机器之心编译, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn