机器之心 ·

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

AdvUnlearn框架结合对抗训练与概念擦除技术，增强了扩散模型在概念擦除任务中的鲁棒性。通过优化文本编码器和引入保留效用正则化，成功抵御对抗性提示攻击，同时保持高质量图像生成。实验结果表明，AdvUnlearn在多种场景下表现优异，为生成模型的安全性提供了新思路。

🎯

🔎

对抗性提示攻击通过微小的文本输入修改，诱导扩散模型生成不当内容。这种攻击方式揭示了现有概念擦除技术的脆弱性，尤其是在处理敏感内容时，模型可能无法有效抵御恶意输入，导致生成有害图像。

AdvUnlearn框架通过结合对抗性训练与概念擦除技术，显著提升了扩散模型的鲁棒性。其双层优化策略不仅增强了模型对抗性提示攻击的抵御能力，还确保了生成图像的质量，为生成模型的安全性提供了新的解决方案。

在AdvUnlearn框架中，保留效用正则化方法确保模型在抵御对抗性攻击的同时，仍能生成高质量的正常内容。这一机制的引入，解决了对抗性训练可能导致的生成质量下降问题，提升了模型的实用性和可靠性。

❓

AdvUnlearn框架结合对抗训练与概念擦除技术，增强扩散模型在概念擦除任务中的鲁棒性，防止模型生成被遗忘的内容。

对抗性提示攻击通过细微修改输入提示，诱导模型生成不当内容，显示现有擦除技术的脆弱性。

AdvUnlearn通过引入保留效用的正则化方法，确保模型在训练过程中保留生成正常内容的能力，从而保持图像生成质量。

AdvUnlearn显著降低了对抗性提示攻击的成功率，例如在裸露概念擦除任务中，成功率从100%降至21.13%。

优化文本编码器能够更好地控制模型对输入中细微变化的反应，从而提升模型在面对恶意输入时的鲁棒性。

AdvUnlearn框架为生成模型的安全性提供了新思路，未来有望在生成式AI应用中发挥重要作用。

🏷️