对抗样本无法被重建！CMU提出通用的无监督对抗攻击检测方法

雷锋网 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

作者 | Ben Dickson

编译 | 琰琰

机器学习在应用程序中的广泛使用，引起了人们对潜在安全威胁的关注。 对抗性攻击（ adversarial attacks） 是一种常见且难以察觉的威胁手段，它通过操纵目标机器学习模型，可能会“悄悄”破坏许多数据样本。

基于此， 对抗性机器学习（Adversarial machine learning） 成为了人工智能领域的热点研究之一，越来越多的AI讲座和研讨会开始探讨这一主题，防止机器学习模型对抗攻击的新方法也在不断推陈出新。

近日，来自 卡内基梅隆大学和KAIST网络安全研究中心的研究团队 提出了一种新的技术方法，他们试图引入无监督学习来解决当前对抗性攻击检测所面临的一些挑战。实验表明，利用模型的可解释性和对抗攻击之间的内在联系，可以发现哪些数据样本可能会受到了对抗干扰。

目前，这项研究方法已受邀在 2021 KDD （Knowledge Discovery and Data Mining）对抗性机器学习研讨会（AdvML） 上进行了展示。

创建对抗性示例

假设对抗性攻击的目标是 图像分类器 ——使图像标签从“狗”更改为“猫”。

攻击者会从未经修改的“狗”图像开始。当目标模型在处理该图像时，它会返回所训练的每个类别的置信度分数列表。其中，置信度最高的类代表图像所属的类别。

为了使这一过程反复运行，攻击者会向图像中添加少量随机噪声。由于修改会对模型的输出产生微小的变化，攻击者通过多次重复该过程可达到一个目的，即使主置信度得分降低，目标置信度得分升高。如此一来，机器学习模型便可能将其输出从一个类更改为另一个类。

一般来讲，对抗攻击算法会有一个epsilon参数，这个参数可以限制模型对原始图像的更改量。但epsilon参数的对抗干扰的程度，对人眼来说仍然难以察觉。

图注：向图像添加对抗性噪声会降低主类的置信度

此外，保护机器学习模型免受对抗性攻击的方法已经有很多，但大多数方法在计算、准确性或可推广性方面会带来相当大的成本。

例如，有些方法依赖于有监督的对抗训练。在这种情况下，防御者必须生成大量的对抗性样本，并对目标网络进行微调，才能正确分类修改后的示例。这种方法所生成的样本和训练成本是相当高的，而且在一定程度上会降低目标模型在原始任务上的性能。更重要的，它也不一定能够对抗未经训练的攻击技术。另外，其他的防御方法需要训练单独的机器学习模型来检测特定类型的对抗性攻击。这样虽然有助于保持目标模型的准确性，但不能保证对未知攻击技术是有效的。

机器学习中的对抗性攻击与可解释性

在这项研究中，CMU和KAIST的研究人员发现了对抗性攻击和可解释性之间的内在联系。

在许多机器学习模型中，特别是深度神经网络，由于涉及大量参数，其推理和决策过程很难被追踪。因此，我们常称机器学习模型内部就像是黑匣子，具有难以解释性。这也导致其在应用范围在受到了一定的限制。

为了克服这一挑战，科学家们开发了不同的方法来理解机器学习模型的决策过程。其中，一种主流的可解释性技术是 生成显著图（saliency maps） ，它通过根据最终输出的贡献对输入数据的每个特征进行评分。

例如，在图像分类器中，显著性映射将根据每个像素对机器学习模型输出的贡献进行评级。

图注：Examples of 生成的显著性图

借助该方法，CMU和KAIST研究人员提出的新技术的背后逻辑是：当图像受到对抗性扰动时，通过可解释性算法运行图像可产生异常结果。卡内基梅隆大学博士Gihyuk Ko表示，“我们的研究是从简单观察开始的，即在输入中加入小噪声会导致它们的解释产生巨大的差异”。

对抗性示例的无监督检测

根据解释图（explanation maps） 检测对抗性示例分为以下几个步骤。首先，利用 “检查器网络（inspector network）” 和可解释性技术为用于训练原始机器学习模型的数据示例生成显著性图。然后，使用显著性映射来训练 “重建网络” ，重建目标模型将对每个决策给出解释。

目标模型有多少输出类，就有多少个重构器网络。例如，如果该模型是手写数字的分类器，它将需要十个重建网络，每个数字一个。每个重构器都是一个自动编码器网络，每个输入的图像都会生成一张对应的解释图。例如，如果目标网络将输入图像分类为“4”，则图像将通过类“4”的重建器网络运行，并生成该类“4”对应输入的显著性映射。

以上是构造器网络训练一个良性示例的过程。如果攻击者向构造器提供对抗性示例，可能会引起输出的异常，而这会帮助研究人员发现受到攻击干扰的图像。如下图所示，实验表明异常解释图在所有对抗性攻击技术中都非常显著。

对抗样本无法被重建！CMU提出通用的无监督对抗攻击检测方法

图注：对抗性示例显著性图与良性示例显著性图的对比

CMU团队认为，该方法的主要优点是不受攻击的影响，而且不需要训练特定的对抗技术。 “在我们的方法之前，有人建议使用SHAP签名来检测对抗性示例，”Gihyuk Ko表示，然而，所有现有的方法在计算上都是昂贵的，因为它们依赖预生成的对抗性示例来分离正常示例和对抗性示例的SHAP签名。

相比之下，无监督方法不需要预训练生成对抗性示例，因而在计算成本上更有优势。此外，它还可以推广到一些未知攻击（即以前未训练过的攻击）。例如，研究人员已经在MNIST数据集上测试了该方法。MNIST是一个手写数字数据集，经常用于测试不同的机器学习技术。他们的发现，无监督的检测方法能够检测各种对抗攻击，并且性能表现远超其他已知方法。

“虽然MNIST数据集相对简单，但该方法也适用于其他复杂的数据集，”Gihyuk Ko说，不过他也承认，从复杂数据集中训练深度学习模型并获得显著性图要困难得多。未来，他们将在CIFAR10/100、ImageNet等更多复杂的数据集和复杂的对抗性攻击上测试该方法。

总之，Gihyuk Ko认为，模型的解释性可以在修复脆弱的深度神经网络方面发挥重要作用。

原文链接： https://bdtechtalks.com/2021/08/30/unsupervised-learning-adversarial-attacks-detection/

雷锋网 (公众号：雷锋网) 雷锋网雷锋网

雷锋网特约稿件，未经授权禁止转载。详情见。