MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

雷锋网 • 7年前扫码分享

雷锋网 (公众号：雷锋网) AI 科技评论：这是一名 MIT CS 在读博士生在推特上引发的争论。

谷歌大脑负责人 Jeff Dean 日前在推特上转了一篇名字为 Anish Athalye 的推文，立刻引起了整个机器学习学术圈的关注，被誉为「GANs 之父」的 Ian Goodfellow 也接连跟帖回复。

Anish Athalye：我们研究了 ICLR 论文，结果并不令人满意

到底是什么言论惊动了众多 AI 界大牛，我们先来看看这篇推文：

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

防御对抗样本仍然是一个尚未解决的问题，三天前公布的 ICLR 接收论文里，八篇关于防御论文里已经有七篇被我们攻破。（只有「aleks_madry」等人的论文中提到的方法在攻击中准确率保持了 47%，没有被攻破）

Anish Athalye 也贴出了自己的 GitHub 地址， https://github.com/anishathalye/obfuscated-gradients ，其中有详细的说明。

雷锋网发现在他的 GitHub 中展示了一个对抗样本的例子，对一只猫的图像加入轻微的干扰就可以使分类器 Inceptionv3 判别错误，将猫头像错认为为「果酱」。他称这样的「欺骗性图像」很容易使用梯度下降法生成。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 GitHub 中的介绍，Anish Athalye 等人近期的论文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》（ https://arxiv.org/abs/1802.00420 ）研究了 ICLR 2018 收录的八篇关于防御的论文中的防御对抗样本的鲁棒性，发现其中有七种防御鲁棒性都很有限，可以通过改进的攻击技术攻破。

下面是论文中的一个表格，展示了多种对抗性样本防御方法在攻击下的鲁棒性。（加 * 表示的这些防御方法建议结合对抗性训练使用）

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 Anish Athalye 等人的研究，八篇论文中唯一一篇显著提高对抗样本防御的鲁棒性的论文是：《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的准确率 47% 那篇）。除了使用威胁模型以外，没有办法攻破这种防御。即便如此，这种防御方法也是难以扩展到 ImageNet 规模的。其余的七篇论文无论是有意还是无意都在依赖于「混淆梯度」。一般的攻击利用梯度下降法使给定图像网络损失最大化，从而在神经网路上产生对抗样本，这种优化方法需要有用的梯度信号才能成功。基于混淆梯度的防御会破坏这种梯度信号，并导致优化方法失效。

Anish Athalye 等人定义了三种基于混淆梯度的防御方式，并构建了绕过每一种攻击的方法。新的攻击方法适用于任何有意的、无意的、包括不可微分操作或以其他方式防止梯度信号流经网络的任何防御。研究员们希望用此方法进行更彻底的安全评估。

《Towards Deep Learning Models Resistant to Adversarial Attacks》

论文摘要

我们意识到「混淆梯度」给防御对抗样本带来的是一种虚假的安全感现象，尽管基于混淆梯度的防御可以打败基于优化的攻击，但我们发现依靠这种效果的防御仍然可以被攻破。

对于我们发现的三种混淆梯度类型中的每一种，我们都会描述展示这种效果的防御指标，并开发攻击技术来攻破它。在样本研究中，我们试验了 ICLR 2018 接收的所有防御措施。我们发现混淆梯度是常见现象，其中 8 个防御中的 7 个依靠混淆梯度。使用我们新的攻击技术，成功攻破了 7 个。

论文地址 ： https://arxiv.org/abs/1802.00420

Ian Goodfellow：你们其实只研究了一部分论文

Jeff Dean 转发后，很快引起了整个机器学习学术圈的注意。难道这是在质疑 ICLR 2018 收录的论文质量很水吗？由于 Anish 的表态主要是针对对抗性样本的防御问题，很快便吸引了 GANs 的发明者、以及长期研究对抗性样本的 Ian Goodfellow 围观，并在推特评论区接连跟帖回应。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

Goodfellow 回应称，ICLR 2018实际上至少收录有11篇关于防御的论文，其他三篇没有提到，却说只有Madry一篇中提到的方法没有被攻破，这是不公平的。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

Goodfellow：ICRL 实际上至少有 11 篇防御论文，而不是 8 篇。（另外三篇里，）实际上有 2 篇已被证明可防御，还有 1 篇他们没有研究。他们（论文的作者）应该说「所有未经认证的白盒防御」而不是「全部防御」。

另外，Goodfellow 认为这篇论文中提出的「混淆梯度」简直就像是给「梯度掩码」换了个名字而已。为了让大家对「梯度掩码」的概念更加了解，Goodfellow 还推荐了相关文献。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

与此同时，Goodfellow 还丢出了一篇 ICLR 2018 论文（Goodfellow 是作者之一），称已经专门解决了梯度解码的问题了。论文题目： Ensemble Adversarial Training: Attacks and Defenses

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

论文地址 ： https://arxiv.org/pdf/1705.07204.pdf

不过这一观点截至目前暂未被发出这条震惊学术圈推文的 Anish Athalye 所承认。

雷锋网报道

。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

随意打赏

mit博士网易跟帖