ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

本研究发现修剪神经元中的概念显著性和相似性可快速恢复修剪后的性能，并在单个神经元中融合新旧概念。然而，永久概念移除以改善模型安全性仍面临挑战。监控概念再出现并减轻对不安全概念的再学习将是更强健的模型编辑的重要方向。总体而言，本研究展示了概念表征在概念移除后的语言模型中的弹性和流动性。

修剪扩散模型概念显著性模型安全性模型编辑神经元