微软研发绘图机器人根据文字描述画出相应图像

网易科技 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

微软研发绘图机器人根据文字描述画出相应图像

本文系网易智能工作室（公众号 smartman163）出品。聚焦AI，读懂下一个大时代！

【网易智能讯 1月22日消息】微软近日推出了一项新的模仿类似艺术家的人工智能技术―一个“绘图机器人”。机器人能够根据文字描述创建一个与之相对应的图像，而且它也增加了细节，这些细节甚至超越了本身而不仅仅在所对应的文字里出现的内容。“这些现象可以说明，人工智能具有自己的想象力”，一名在微软公司的工作人员说道。

“如果你在必应引擎去搜索关于一只鸟的信息，你会得到一个与鸟类相关的图片。但是在这里，图片是由计算机逐个像素地从头开始创建的，“微软公司在华盛顿州雷蒙德市微软研究实验室深度学习技术中心的首席研究员兼研究经理何晓东在微软最近的一篇公告中表示。 “这些鸟可能在现实世界中都不存在，而它们只是代表了我们研发的人工智能对鸟类想象力的一个方面的描述。”

研究人员说，机器人能够生成各种图像，包括从“普通的田园场景”，如放牧家畜，甚至包括对“浮动双层巴士”的想象图。

微软方面表示，该机器人已经在配对图像和标题的数据集上进行了培训，该培训能够使其理解如何将相应的单词与图像进行匹配。 例如，当标题上写着“鸟”时，它先学会画一只鸟，然后通过机器学习来理解鸟的图像应该是什么样的。

何晓东说：“这是我们相信机器可以学习的根本原因之一。”

微软研发绘图机器人根据文字描述画出相应图像

绘图机器人的技术由两个机器学习模型组成，一个是从文本描述生成图像，另一个是使用文本描述来判断生成图像的真实性。 前者试图从后者获得虚拟的照片，但后者不想被愚弄。所以通过互相之间内部的“竞争”，两者结合起来便能够共同创造更高质量的图像。

它尤其擅长从更复杂的句子中绘制图像，而其他技术可能会从标有“鸟”的标题中画出一只鸟，例如，如果您要求它画一只绿色的皇冠，黄色的翅膀和红色的肚皮，那么质量就会下降。在微软研发该项技术之前，一般的结果便是生成一个模糊的“绿黄色微红的鸟”，微软的工作人员解释说。

尤其有趣的是，当没有提到具体的细节时，机器人如何填补信息空白。事实就是，基本上，由于其能够记忆训练数据，它会拥有一点自己的常识来发展想象力。在搜索鸟类的这个例子中，即使没有在文本中说明，机器人通常会画一只坐在树枝上的鸟，因为最初赋予它进行学习记忆的图像通常显示类似的东西。

根据最近的一篇研究报告，微软方面还指出，与现有技术相比，这种新型机器人生成的图像质量相较以前提升了近三倍。

当然，这不是第一个研发出来的与艺术相结合的人工智能技术。

这两者结合有时会产生出色的结果，比如Google的人工智能机器生成的图像展现了其具有艺术表现力的潜能。谷歌还有一个神经网络，可以猜测你正在绘制什么，他们还拥有一个自动绘图机器人，并定期地详细介绍它如何在帮助机器进行绘制的研究。

Facebook也一直在开发神经网络来制作飞机，汽车和动物等小图片，甚至用它从照片中创建自己的Bitmoji形象。

对于微软来说，教一个机器人根据文本来画出相对应的图像这项技术代表着它已经达到了在这个计算机视觉和自然语言处理领域所需要的技术。

这包括CaptionBot的自动写入照片字幕的开发，以及可以回答人们询问图像的问题的技术，如图中对象的位置或属性，这是对盲人有帮助的事物。

微软研发绘图机器人根据文字描述画出相应图像

至于人工智能艺术家在现实世界中如何为人类服务，微软公司有一些想法。

这表明该机器人可以作为画家或室内设计师的素描助手，或者可以作为声控美化照片的工具来被使用。（“Cortana，请你为我画一只鸟”，也许它能做到？）

何晓东表示，随着计算能力的增强，该技术可能会对电影动画制作有所帮助，从而减少动画师在电影后期制作所需的手工劳动量。

但该技术还没有达到我们能够用它完成所提出的要求的程度。

如果仔细观察这些图像，它们几乎都会有缺陷，我们可以很明显地看出来它们是由机器创造的，而不是人类：例如上图中的蓝喙鸟，水果和奇形怪状的香蕉图（见上文）。

然而，随着它的进3倍速度能力的提高，绘图机器人代表了人工智能发展的里程碑，微软公司相关人员说道。

（选自：TechCrunch 编译：网易智能参与：付曾）

随意打赏

微软聊天机器人tay 微软聊天机器人小冰微软机器人小冰机器人研发公司微软小冰机器人微软聊天机器人机器人研发微软机器人微软手机

Recall AI快照开启公测，微软Win11 Dev预览版26120.2415更新发布

砍柴网 • 2分钟前

11 月 23 日消息，微软今日面向 Windows 11 Dev 预览版用户推送了 Build 26120.2415（KB5046723）版本更新，Recall 功能迎来首个预览版本。Recall 功能回归据微软官方介绍，Recall 是一种全新的方式，可以安全地搜索用户在 PC 上看到或做过的事情。借助 Copil
微软Win11 Game Bar迎来内置Edge浏览器，自动识别游戏显示攻略等

砍柴网 • 12分钟前

11 月 23 日消息，微软今日官宣推出 Edge Game Assist（预览版），该工具是微软 Edge 浏览器的特殊版本，针对 PC 游戏进行了优化，可以显示在 Windows 11 系统的 Game Bar 中。该功能可以自动识别游戏，并会建议相关的提示和指导。它还与 PC
诺基亚与微软再合作，为 Azure 数据中心供货延长五年

砍柴网 • 22小时前

11 月 22 日消息，芬兰电信巨头诺基亚与微软旗下云服务公司 Azure 昨日宣布将多年协议延长五年，诺基亚将为微软 Azure 提供数据中心路由器和交换机。诺基亚数据中心交换机将安装在新站点，并用于支持微软的现有设施从 100GE 过渡到 400GE 连接
微软Win11照片新功能遇挫：错误分发“超分”后，又暂时停用OCR功能

砍柴网 • 23小时前

11 月 22 日消息，科技媒体 NeoWin 昨日（11 月 21 日）发布博文，报道称微软由于发现某些 BUG，暂时停用了 Windows 11 系统照片应用中的 OCR 功能。 OCR 功能简介IT之家曾于今年 10 月报道，微软升级 Windows 11 照片应用，带
微软公测Translator Pro翻译应用：打破职场语言障碍，可本地运行

砍柴网 • 1天前

11 月 22 日消息，微软昨日（11 月 21 日）发布博文，宣布以限量公开预览的形式，推出 Microsoft Translator Pro 应用，通过独立的本地移动体验，帮助企业员工消除职场中的语言障碍。该应用现已在 iOS 平台（IT之家查询苹果中国 App Store，暂未上线，
微软发布一站式AI开发平台Azure AI Foundry

i黑马 • 1天前

11月20日消息，微软发布一站式AI开发平台Azure AI Foundry，可以让用户更轻松地在支持人工智能的大型语言模型之间切换。Azure AI Foundry SDK现已推出Python和C#版本，即将推出JavaScript版本。Azure OpenAI服务提供对OpenAI模型的访问，包括GPT-4o、GP
微软发布Win11 Canary 27754预览版更新：重构Windows Hello，优化任务栏和系统托盘

砍柴网 • 2天前

11 月 21 日消息，微软公司昨日（11 月 20 日）发布博文，面向 Canary 频道的 Windows Insider 项目成员，发布了 Windows 11 Build 27754 预览版更新。一、新功能1.1、新的 Windows Hello 图标微软重新设计 Windows Hello 安全体验，让其更契
音量突增100%：微软承认Win11 24H2游戏系统存在音频服务Bug

砍柴网 • 2天前

11 月 21 日消息，微软本周一确认了一项“Windows 游戏系统外部 USB 音频音量增加到 100%”的奇怪 Bug，KB ID 为 5049177。据微软介绍，出现此问题的根本原因在于 AudioEndpointBuilder 服务中的计时问题。IT之家从微软获悉，当以下条
Windows 10即将寿终正寝微软向更多用户推送全屏广告

砍柴网 • 2天前

11月21日消息，Windows 10即将被放弃支持，微软也是不遗余力的向老用户推送广告，希望赶快升级。微软计划于2025年10月14日结束对Windows 10的主流支持，客户和企业用户将有几个选择：更新到Windows 11、付费购买更多更新，或者继续使用 Windows 10 而不进行任何更新。微软希望每个人都选
微软困在Copilot里

虎嗅网 • 2天前

2023年9月，向来以温和低调著称的微软CEO萨蒂亚·纳德拉（Satya Nadella），以极大热情推出了公司旗舰AI产品Copilot。他当时信心满满地宣称： “Copilot将彻底改变我们与技术的互动方式” ，并预言这个AI助手将引领一个“全面促进个人、行业、社区乃至

评论