MIRA:基于模型反演的去除攻击方法破解深度神经网络中的黑盒水印技术
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的基于模型反演的移除攻击(Mira),该攻击对大多数主流的黑盒深度神经网络水印方案都有效。攻击方法利用受保护模型的内部信息来恢复并取消学习水印信息,并设计了目标类别检测和恢复样本分割算法来减小攻击带来的效用损失。在三个基准数据集和深度神经网络架构上进行了全面评估,结果显示Mira对覆盖的水印具有强大的去除效果,保留了至少90%的被窃模型效用。
🎯
关键要点
-
提出了一种新的基于模型反演的移除攻击(Mira)。
-
Mira攻击不针对特定水印,对大多数主流黑盒深度神经网络水印方案有效。
-
攻击方法利用受保护模型的内部信息恢复并取消学习水印信息。
-
设计了目标类别检测和恢复样本分割算法以减小效用损失。
-
实现了对一半水印方案的无数据水印去除。
-
在三个基准数据集和深度神经网络架构上进行了全面评估。
-
Mira对覆盖的水印具有强大的去除效果,保留了至少90%的被窃模型效用。
🏷️