小红花·文摘

本文提出了一种基于强化学习的对抗性样本生成方法，成功欺骗IMDB情感分类和AG新闻分类模型，同时保持文本语义。研究还探讨了多语言分类器的对抗性攻击，提出了ParaphraseSampler样本采样技术，显示出更高的攻击成功率。此外，分析了神经机器翻译系统的缺陷，并提出了改进对抗样本质量的R&R框架，显著提高了攻击成功率。