DTA: 基于分布变换的受查询限制场景攻击
原文中文,约300字,阅读约需1分钟。发表于: 。该论文通过利用对抗示例的分布特征,以困难标签黑盒设置下的条件似然函数为依据建立统计映射,从而提出了一种基于分布变换的攻击方法(DTA),该方法可以无需频繁查询目标模型,直接且高效地生成一批对抗示例,用于攻击未知模型。实验验证了该方法的有效性和优越性。
本研究提出了一种名为IT-DT的框架,用于改善Transformer-based文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测,并利用预训练的嵌入和模型反馈来生成最佳替换,将对抗示例转化为非对抗。通过人工专家的参与,提高透明度和决策能力。