人工智能的想象力在哪里？微软的这个机器人画家告诉你答案

雷锋网 • 7年前扫码分享

雷锋网按：人工智能能够实现什么？毫无疑问它可以帮助我们实现很多事情，但微软最近开发的一项人工智能技术刷新了我们对于人工智能的认知。基于计算机识别和自然语言处理，微软开发出一种可以根据用户描述来绘图的机器人，它甚至可以帮助用户补全未必描述的细节。目前微软已经通过官方博客公布了这一成果，雷锋网 (公众号：雷锋网) 对这篇博客进行了不改变原意的编译。

试想一下，你手中拿着稿纸和画笔，被要求画一幅关于鸟的照片，这只鸟要有黄色的身体，黑色的翅膀和短短的鸟喙。你大概会先画出鸟的大概轮廓，之后检查修改一下，继续想想黄色的身体部分，然后用黄色的画笔填充鸟的身体。接着再用黑色的画笔完成鸟的翅膀，最终检查一下，画上短短的有些发亮的鸟喙。为了使之更生动形象，你或许会画上鸟所栖息的树干。

如今，机器人也可以如你一样做到这一点了！

微软研究实验室正在开发的新型人工智能技术能够从字幕式的文本描述中截取单个的词语生成图像。网站 arXiv.org 上发表的一篇研究报告称，根据行业标准测试的结果，这项技术产生的图像质量与之前的文本到图像生成技术相比，提高了将近三倍。

研究人员简单地称之为绘图机器人，该技术可以生成从普通的田园风光（如放牧家畜）到荒谬无意义的（如浮动的双层巴士）所有图像。每幅图像都包含了文字描述中没有提及的细节，表明该人工智能技术拥有一种人造的想象力。

“如果你用 Bing 搜索一只鸟，你会得到一张鸟的图片。但是在这里，图片是由计算机逐个像素地从头开始创建的，”位于微软在华盛顿州雷蒙德市的研究实验室，深度学习技术中心的首席研究员和研究主管 Xiaodong He表示。“这些鸟在现实世界中可能不会存在——它们只是表明了计算机对鸟类想像力的一个方面”。

这项绘图机器人技术完成了他和他的同事在过去五年中，探索过的计算机视觉和自然语言处理的交叉学科研究。他们从自动编写照片字幕 —— CaptionBot ——的技术开始，然后转向另外一种技术，回答人类对图像提出的问题，例如对象的位置或属性，这点对盲人特别有用。

这些研究工作需要训练机器学习模型来识别对象，完成行为和自然语言间的交互。

“现在我们要用文字来生成图像，”该组织的博士后研究员，论文合著者 Qiuyuan Huang 表示， “所以，这就是一个循环。”

图像生成是一个比图像字幕更具挑战性的任务，团队中的副研究员 Pengchuan Zhang 补充说，因为这个过程需要绘图机器人想像没有包含在标题中的细节。他说：“这意味着你需要运行人工智能的机器学习算法来想象一些图像中的缺失部分。”

细致的图像生成

微软绘图机器人的核心是一种被称为“生成对抗网络”（Generative Adversarial Network，GAN）的技术。网络由两个机器学习模型组成，一个从文本描述生成图像，另一个称为鉴别器，使用文本描述来判断生成图像的真实性。发生器试图通过假照片骗过鉴别器，同时鉴别器进行判断。二者一同作用，将发生器不断完美。

微软的绘图机器人在包含对应图像和标题的数据集上进行了训练，这些允许模型学习如何将单词与这些单词的可视化图片表示相匹配。例如， GAN 学会在标题说鸟的时候生成鸟的图像，并且同样学习鸟的图像应该是什么样的。他说：

这是我们相信机器可以学习的根本原因。

当从简单的文字描述（例如蓝鸟或常青树）产生图像时， GAN 可以很好地工作，但在更复杂的文本描述中效果不佳，例如具有绿色的冠，黄色的翅膀和红色腹部的鸟。这是因为整个句子作为发生器的单一输入。其中详细的信息发生了丢失。因此，生成的图像是一种模糊的带绿色和微黄色的鸟，而不是与描述中紧密匹配。

在人类的绘画过程中，我们反复提到文本，并密切关注描述我们正在绘制的图像区域和单词描述。为了捕捉这种人的特质，研究人员创建了他们所谓的 attentional GAN或 AttnGAN，它们在数学上模拟了人类关注的概念。它是通过将输入文本分解为单个单词并将这些单词与图像的特定区域相匹配来实现的。

“注意是一个人的概念，我们用数学来进行计算。”他解释说。

该模型还从训练数据中学习到人类称为常识的东西，并且利用这个学习的概念来填充留在想象中图像的细节。例如，由于训练数据中的许多鸟类图像显示了坐在树枝上的鸟， AttnGAN 通常使鸟栖息在树枝上，除非文本另有规定。

“从数据来看，机器学习算法学习鸟站在树枝上应该属于这类常识，”Zhang 说。作为一项测试，该团队为漫画图像提供了绘图机器人所需的字幕，例如“一辆红色的双层巴士漂浮在湖面上”。它生成了一个模糊的，飘逸的双层巴士图像，类似于两层甲板船或双层甲板船，漂浮在群山环绕的湖上。该图像表明，关于船只能漂浮在湖泊上和公共汽车的文本描述之间，机器人内部有一个争斗。

“我们可以控制我们描述的东西，看看机器如何作出反应。” 他解释说，“我们可以干涉和测试机器到底学到了什么东西。这台机器已经具有一些背景常识，但它仍然可以按照你所要求的运行，有时候，这似乎有点荒谬可笑。”

实际应用方面

这项文本到图像的生成技术可以运用到实际应用中，可以作为画家和室内设计师的草图助手，或作为语音控制的照片美化工具。伴随更强大的计算能力，他想象这项技术可以生成基于电影剧本的动画电影，为电影制作人减少一些需要人工的成本。

但就目前来看，这项技术还不完善。对图像进行仔细检查后，几乎总能发现瑕疵，例如蓝鸟喙，而不是黑色的，水果和基因突变的香蕉长在一起。这些缺陷清楚地表明，是电脑而不是人类创造了这些图像。尽管如此， AttnGAN 图像的质量比以前最好的 GAN 图像质量提高了近 3 倍，并且这是通往增强人类自身能力的类人工智能道路上的一个里程碑。

“因为人工智能和人类生活在同一个世界，他们之间必须找到一种互相交流的方式。”他解释道，“语言和视觉是人类与机器交流的两个最重要的途径。”

除了微软的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang，合作者还包括前微软实习生利理海大学的Tao Xu和杜克大学的 Zhe Gan，罗格斯大学的 Han Zhang，理海大学的 Xiaolei Huang。

有关参考资料

1.阅读关于 AttnGAN 的研究论文

2.了解更多关于微软在视觉和语言智能方面的 AI 研究成果

3.查看 CaptionBot 和 Seeing AI 这两个应用

4. 数十年的计算机视觉研究，“Swiss Army Knife”

Via blogs.microsoft.com ，由雷锋网编译

。