文本分类器的对抗攻击的约束执行奖励
内容提要
本文提出了一种基于强化学习的对抗性样本生成方法,成功欺骗IMDB情感分类和AG新闻分类模型,同时保持文本语义。研究还探讨了多语言分类器的对抗性攻击,提出了ParaphraseSampler样本采样技术,显示出更高的攻击成功率。此外,分析了神经机器翻译系统的缺陷,并提出了改进对抗样本质量的R&R框架,显著提高了攻击成功率。
关键要点
-
提出了一种基于强化学习的方法,能够成功欺骗IMDB情感分类和AG新闻分类模型,同时保持文本语义。
-
通过对多语言释义模型进行微调,提出了一种对抗性攻击算法,实验证明该方法在查询效率方面优于现有基准模型。
-
提出了ParaphraseSampler样本采样技术,通过句子级别的改写,显示出更高的攻击成功率。
-
研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,发现人类生成的对抗样本在自然性、情感及语法方面的表现不高于最佳算法。
-
通过基于强化学习的新范例生成对抗性样本,探究了神经机器翻译系统的缺陷,证明了方法的有效性。
-
提出了rewrite and rollback(R&R)框架,通过优化批判分数提高对抗样本的质量,攻击成功率显著增加。
-
提出了一种正则化Transformer-based编码器fine-tuning的方法,通过对干净和对抗性示例的对比学习实现更好的文本分类效果。
-
提出了两种新的对抗训练方法,实验证明这两种方法在各种文本分类数据集上优于强基线,能够有效提高模型的抗打击能力。
延伸问答
什么是基于强化学习的对抗性样本生成方法?
基于强化学习的对抗性样本生成方法能够在黑盒设置中成功欺骗文本分类模型,同时保持原始文本的语义。
ParaphraseSampler样本采样技术的作用是什么?
ParaphraseSampler通过句子级别的改写,能够提高对抗攻击的成功率,实验证明其效果优于基线方法。
如何提高对抗样本的质量?
通过rewrite and rollback(R&R)框架优化批判分数,可以提高对抗样本的质量,显著增加攻击成功率。
研究中提到的对抗性攻击算法有什么特点?
该算法通过对多语言释义模型进行微调,能够有效生成对抗性样本,并在查询效率上优于现有基准模型。
人类生成的对抗样本与算法生成的样本相比如何?
人类生成的对抗样本在自然性、情感及语法方面的表现不高于最佳算法,但生成效率更高。
新提出的对抗训练方法有哪些?
新方法包括缩小原始样本与对抗样本的距离,同时扩大与不同标记样本的距离,以及在对抗性表示下重构原始样本。