人工智能产品遭“幻觉”骚扰，深度神经网络无力防御对抗样本攻击？

雷锋网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) 按：2 月 3 日，在 ICLR 2018 大会期间，谷歌大脑负责人 Jeff Dean 日前在推特上转了一篇名字为 Anish Athalye 的推文，推文内容如下：防御对抗样本仍然是一个尚未解决的问题，三天前公布的 ICLR 接收论文里，八篇关于防御论文里已经有七篇被我们攻破。这一言论立刻引起了整个机器学习学术圈的关注。 Wired 近日发布了一篇关于这一事件后续的讨论文章，雷锋网进行了编译。

在机器学习的强大力量推动下，科技公司正在急于将很多事物与人工智能结合在一起。但是，激起这种趋势的深度神经网络却有一个很难解决的弱点：对图像、文本或音频进行微小的改变就可以欺骗这些系统，感知到那些并不存在的事物。

对依赖于机器学习的产品而言，这可能是一个大问题，特别是对诸如自动驾驶汽车这种视觉系统，研究者们正在努力制定针对此类攻击的防御措施，但很有挑战性。

今年 1 月，一场顶级机器学习大会公布了它在 4 月选出的 11 篇新论文，它们提出了应对或检测这种对抗性攻击的方法。但仅三天后，麻省理工学院学生 Anish Athalye 就声称已经“破解”了其中 7 篇新论文，其中包括 Google，亚马逊和斯坦福等机构。“有创造性思维的攻击者仍然可以规避这些防御。”Athalye 说。他与伯克利分校的研究生 David Wagner 和教授 Nicholas Carlini 一起参与了这个项目的研究。

这个项目导致一些学者对这三人组的研究细节进行了反复讨论。但关于项目中提到的一点他们几乎没有争议：目前人们尚不清楚如何保护基于深度神经网络的消费品和自动驾驶产品以免让“幻觉”给破坏了。“所有这些系统都很脆弱，”意大利卡利亚里大学的助理教授 Battista Biggio 已经研究机器学习的安全问题有十年之久，“机器学习社区缺乏评估安全性的方法论。”

人工智能产品遭“幻觉”骚扰，深度神经网络无力防御对抗样本攻击？

人类将很容易识别 Athalye 创建的上面这张图，它里面有两名滑雪者。当在周四上午，谷歌的 Cloud Vision 服务认为它有 91％的可能性这是一只狗。其他的还有如何让停止标志看不见，或者对人类听起来没问题的语音却让机器转录为“好的谷歌，浏览到恶意网站.com”。

到目前为止，此类攻击还没有在实验室以外的地方得到证实。但伯克利的博士后研究员 Bo Li 说，现在他们仍然需要认真对待。自动驾驶汽车的视觉系统，能够购物的语音助理以及过滤网上不雅内容的机器学习系统都需要值得信赖。 “这是非常危险的，”Li 说，她去年的研究——在停车标志上贴上贴纸——表明可以使机器学习软件识别不到它们。

Athalye 及其合作者共同撰写的论文中就有 Li 作为共同作者。她和伯克利的其他人介绍了一种分析对抗攻击的方法，并表明它可以用来检测这些攻击。 Li 对 Athalye 的关于防护还有诸多漏洞的项目表示，这种反馈有助于研究人员取得进步。 “他们的攻击表明我们需要考虑一些问题，”她说。

在 Athalye 所分析论文在内的斯坦福大学的研究者 Yang Song 拒绝对这项工作发表评论，他的论文正在接受另一个重要会议的审查。卡内基梅隆大学教授兼包括亚马逊研究员在内的另一篇论文共同作者 Zachary Lipton 表示，他没有仔细检查分析结果，但认为所有现有的防御措施都可以避开是合理的。Google 拒绝对自己的论文进行评论，该公司的一位发言人强调 Google 致力于对抗攻击的研究，并表示计划更新公司的 Cloud Vision 服务，以抵御这些攻击。

为了对攻击建立更强大的防御机制，机器学习研究人员可能要更加苛刻。 Athalye 和 Biggio 表示，该领域应该采用安全研究的做法，他们认为这种做法能更严格的测试新防御技术。 “在机器学习领域，人们倾向于相互信任，”Biggio 说，“而安全研究的心态正好相反，你必须始终怀疑可能会发生不好的事情发生。”

上个月，AI 和国家安全研究人员的一份重要报告也提出了类似的建议，它建议那些从事机器学习的人应更多地考虑他们正在创造的技术会被滥用或利用。

对于某些 AI 系统来说，防范对抗性攻击可能比其他方面要做的要更为容易。Biggio 说，受过训练的检测恶意软件的学习系统应该更容易实现强鲁棒性，因为恶意软件是功能性的，限制了它的多样性。 Biggio 称，保护计算机视觉系统要困难得多，因为自然界变化多端，图像中包含了很多像素。

解决这个问题（这可能会挑战自动驾驶汽车的设计者）可能需要对机器学习技术进行更彻底的反思。 “我想说的根本问题是，深度神经网络与人脑大不相同。”Li 说。

人类并不对来自感官的欺骗完全免疫。我们可能被看到的错觉所愚弄，最近来自 Google 的一篇论文创建了奇怪的图像，这欺骗了软件和人类，让他们在不到 1/10 秒内看见图像时将猫误认为是狗。但是，在解释照片时，我们不仅要看像素模式，还要考虑图像不同组成部分之间的关系，比如人脸特征，Li 说。

Google 最杰出的机器学习研究员 Geoff Hinton 正试图给机器提供这种能力，他认为这可以让软件学会从少数几张图片而不是几千张图片中识别物体。Li 认为，具有更人性化视角的机器也不太容易受到“幻觉”影响。她和伯克利的其他研究者已经开始与神经科学家和生物学家展开合作，尝试从大自然中获得启发。

*雷锋网编译自 Wired ，题图来自 Marco Goran Romano

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

。