模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

复旦大学研究团队提出的DuMo网络有效解决了生成模型中风险概念的精准擦除问题,同时保持了生成能力。在裸露内容、卡通和艺术风格的擦除任务中,该方法表现优异,达到了当前最佳水平,确保了安全概念的生成质量。

🎯

关键要点

  • 复旦大学研究团队提出的DuMo网络有效解决了生成模型中风险概念的精准擦除问题。

  • DuMo在裸露内容、卡通和艺术风格的擦除任务中表现优异,达到了当前最佳水平。

  • DuMo能够避免生成模型模仿艺术家风格,防止侵犯版权。

  • 现有方法通过概念擦除的微调方法实现模型去毒,存在效果不佳的问题。

  • DuMo采用双编码器调制网络,通过创新架构和算法实现精准擦除。

  • DuMo在擦除风险概念的同时,保持了其他安全概念的生成能力。

  • EPR擦除模块通过修改跳跃连接特征,最大程度避免对安全概念的负面影响。

  • 时间-层级调制机制(TLMO)根据不同层级和时间步调整擦除强度。

  • DuMo在裸露内容擦除任务中表现出色,生成图像质量指标达到顶尖水平。

  • 在卡通概念移除任务中,DuMo实现了更好的擦除效果与生成能力的平衡。

  • 在艺术风格移除任务中,DuMo精准擦除了特定风格特征,影响其他风格的程度最低。

延伸问答

DuMo网络的主要功能是什么?

DuMo网络主要用于在生成模型中精准擦除风险概念,同时保持生成能力。

DuMo在裸露内容擦除任务中的表现如何?

在裸露内容擦除任务中,DuMo的裸体部位检测数量仅为34个,生成图像质量指标达到顶尖水平。

DuMo如何避免侵犯版权?

DuMo能够避免生成模型模仿艺术家风格,从而防止制作侵犯版权的照片。

DuMo的创新架构有哪些特点?

DuMo采用双编码器调制网络,通过EPR擦除模块和时间-层级调制机制实现精准擦除。

DuMo在卡通概念移除任务中的效果如何?

在卡通概念移除任务中,DuMo实现了更好的擦除效果与生成能力的平衡,LPIPS_da指标显著提升。

DuMo的EPR擦除模块是如何工作的?

EPR擦除模块通过修改跳跃连接特征,最大程度避免对安全概念的负面影响,同时保留模型的先验知识。

➡️

继续阅读