DTA: 基于分布变换的受查询限制场景攻击

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了一种名为IT-DT的框架,用于改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测,并利用预训练的嵌入和模型反馈来生成最佳替换,将对抗示例转化为非对抗。通过人工专家的参与,提高透明度和决策能力。

原文中文,约300字,阅读约需1分钟。
阅读原文