BriefGPT - AI 论文速递 ·

推进泛化迁移攻击：基于初始化衍生的双层优化和动态序列截断

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文介绍了多种针对深度学习模型的对抗攻击方法，如“可学习黑箱攻击”和“反向传播攻击”。研究表明，这些新方法在生成可迁移的对抗样本和评估攻击强度方面具有显著优势，提升了攻击的成功率和有效性。

🎯

关键要点

提出了一种名为“可学习黑箱攻击”的新方法，结合了基于转移和基于查询的黑盒攻击，显著优于现有技术。
提出了反向传播攻击（BPA），增强了输入图像相关的梯度和损失函数之间的关联性，生成更具传递性的对抗样本。
研究了一种生成可迁移对抗扰动的方法，结合数据增广、模型增广和元学习算法，成功率提高了12.85%。
探讨了云端机器学习服务平台的漏洞，发现先前假设在真实世界环境下不再一致，指出未来研究方向。
提出新的CE损失函数，从几何角度评估攻击强度，验证了其有效性。
提出了一系列技巧增强对抗性传递性，包括动量初始化和基于频谱的输入变换，实验验证了其高效性。
提出基于失真度量的迁移性攻击成功率评估工具，提出新型选择机制FiT，实验结果表明其高效性。
建立基于转移的攻击基准（TA-Bench），评估和比较多种方法在ImageNet上的有效性。
研究对抗样本的转移性，提出DUMB攻击模型，验证攻击效果受数据源和模型架构影响。
提出动态梯度平衡攻击方法（DGBA），显示参数共享提高任务准确性，但对模型健壮性贡献有限。

❓

延伸问答

什么是可学习黑箱攻击？

可学习黑箱攻击是一种结合了基于转移和基于查询的黑盒攻击的新方法，能够有效利用查询反馈，显著优于现有技术。

反向传播攻击的主要优势是什么？

反向传播攻击增强了输入图像相关的梯度和损失函数之间的关联性，从而生成更具传递性的对抗样本，具有较大的应用潜力。

如何提高对抗样本的成功率？

通过结合数据增广、模型增广和元学习算法，可以生成可迁移的对抗扰动，成功率提高了12.85%。

云端机器学习服务平台存在哪些漏洞？

研究发现，云端机器学习服务平台的假设在真实世界环境下不再一致，存在普遍的对抗攻击问题。

CE损失函数在攻击强度评估中的作用是什么？

CE损失函数从几何角度出发，有效评估攻击强度，并针对攻击强度和ICR等方面进行了验证。

什么是动态梯度平衡攻击方法（DGBA）？

动态梯度平衡攻击方法是一种基于平均相对损失变化的攻击方法，显示参数共享提高任务准确性，但对模型健壮性贡献有限。

🏷️

标签

可迁移样本对抗攻击成功率攻击强度深度学习

➡️

继续阅读

HHost香港VPS $3.5/月：自带CNIX优化线路，1G内存+10G SSD，500M@1T流量
HHost香港VPS推出新业务，提供CNIX优化线路，1G内存和10G SSD，月费仅$3.5，适合香港及海外客户与中国内地协作，现有8.5折优惠。用户需...
GPT-6攻击HuggingFace始末
GPT-6攻击HuggingFace始末 OpenAI 的 GPT-5.6 Sol 与被外界称为 GPT-6 的未发布模型，在关闭网络安全护栏后参加 E...
刚刚，北大校友翁荔官宣离职，AI 时代最好的「对齐」是照顾好自己
AI 时代最好的「对齐」是照顾好自己#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
Kimi K3在强化训练中也尝试越狱月之暗面没有渲染威胁论而是加固安全边界
#人工智能月之暗面在 K3 论文中提到，该模型在强化训练过程中，相关智能体展现出更加激进的探索行为，甚至尝试奖励黑客，部分非预期操作多次引起宿主机内核恐...
三种反应式算法一次讲透：推/拉/推拉混合
写代码的人最怕改一个数据然后整个世界都卡住：这个电子表格里有三百万个公式，改一个数字电脑就死机了，谁受得了？这篇文章要讲的就是怎么让程序在数据变化时只更...
Threads 用户现在可以在私信中与 Meta AI 聊天
Meta 周一表示，它将在 Threads 的私信功能中推出 Meta AI 聊天机器人，使用户能够与 AI 助手聊天。虽然部分市场的 Threads ...