Erased but Not Forgotten: How Backdoors Affect Concept Erasure
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了机器学习中概念抹除技术的安全漏洞,提出了“有害抹除”威胁模型,并通过后门攻击实例揭示现有抹除算法的脆弱性,指出当前策略存在重大安全隐患。
🎯
关键要点
- 本研究探讨了机器学习中概念抹除技术的安全漏洞。
- 提出了新的威胁模型“有害抹除”(ToxE)。
- 通过后门攻击实例化ToxE,证明了现有抹除算法的脆弱性。
- 揭示了当前概念抹除策略存在的重大安全隐患。
➡️