TRCE是一种新方法,成功率达到97.6%,能够从AI图像生成器中去除有害概念,同时保持94.8%的正常生成能力。该方法通过采样、过滤和精炼三个阶段有效运作,适用于多种扩散模型。
本研究提出TRCE方法,针对文本到图像扩散模型中的恶意内容生成问题,采用双阶段概念消除策略,有效去除恶意概念,同时保留生成能力。
完成下面两步后,将自动完成登录并继续当前操作。