对抗后门攻击中对比学习的防御难度
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究了文本后门攻击对NLP系统的威胁,并提出了评估协议和开源工具包OpenBackdoor。文章探讨了攻击和防御模型的性能,并提出了聚类-based的防御策略CUBE。
🎯
关键要点
-
研究文本后门攻击对NLP系统的威胁。
-
提出特定的评估协议以解决现有评估中的真实环境差异问题。
-
开发开源工具包OpenBackdoor以促进文本后门学习的实现和评估。
-
详细探讨攻击和防御模型的性能。
-
提出聚类-based的防御策略CUBE,为未来模型开发提供基础。
🏷️
标签
➡️