DTA: 基于分布变换的受查询限制场景攻击

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为IT-DT的框架,用于改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测,并利用预训练的嵌入和模型反馈来生成最佳替换,将对抗示例转化为非对抗。通过人工专家的参与,提高透明度和决策能力。

🎯

关键要点

  • 本研究提出了一种名为IT-DT的框架,旨在改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。

  • IT-DT框架关注于解释性和透明性,使用注意力映射和模型反馈进行解释性检测。

  • 框架在识别对抗分类和确定模型漏洞方面具有显著效果。

  • 在转换阶段,IT-DT利用预训练的嵌入和模型反馈生成最佳替换,将对抗示例转化为非对抗。

  • IT-DT框架通过人工专家的参与提高透明度,增强复杂情况下的决策能力。

➡️

继续阅读