绕过DARCY防御:不可区分的通用对抗触发器
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了自然语言处理中的神经网络分类模型易受通用对抗触发器攻击的问题。提出了一种新型的对抗触发器生成方法IndisUAT,能够生成特征分布与正常样本无法区分的对抗样本,从而有效绕过DARCY防御。研究表明,IndisUAT在保护模型中显著降低了检测准确率,且在黑箱模型中的有效性进一步展示了其潜在影响。
本研究提出了一种新型的对抗触发器生成方法IndisUAT,能够绕过DARCY防御,解决了神经网络分类模型的通用对抗触发器攻击问题。研究发现,IndisUAT在保护模型中显著降低了检测准确率,并在黑箱模型中展示了其潜在影响。