DTA: 基于分布变换的受查询限制场景攻击
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为IT-DT的框架,用于改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测,并利用预训练的嵌入和模型反馈来生成最佳替换,将对抗示例转化为非对抗。通过人工专家的参与,提高透明度和决策能力。
🎯
关键要点
-
本研究提出了一种名为IT-DT的框架,旨在改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。
-
IT-DT框架关注于解释性和透明性,使用注意力映射和模型反馈进行解释性检测。
-
框架在识别对抗分类和确定模型漏洞方面具有显著效果。
-
在转换阶段,IT-DT利用预训练的嵌入和模型反馈生成最佳替换,将对抗示例转化为非对抗。
-
IT-DT框架通过人工专家的参与提高透明度,增强复杂情况下的决策能力。
🏷️
标签
➡️