AdvUnlearn框架结合对抗训练与概念擦除技术,增强了扩散模型在概念擦除任务中的鲁棒性。通过优化文本编码器和引入保留效用正则化,成功抵御对抗性提示攻击,同时保持高质量图像生成。实验结果表明,AdvUnlearn在多种场景下表现优异,为生成模型的安全性提供了新思路。
本文提出了一种新颖的概念擦除方法,通过更新文本编码器和对抗训练,实现快速且自然的概念擦除。研究表明,现有方法无法完全抹除目标概念,强调了概念消除的脆弱性。所提出的框架在去除不良概念的同时,保留了模型性能,展示了概念表征的弹性和流动性。
完成下面两步后,将自动完成登录并继续当前操作。