文本分类器中的对抗攻击与维度
原文中文,约400字,阅读约需1分钟。发表于: 。机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一,通过在测试样本中引入微小和结构化的扰动,对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例,探究了对抗性容易受到攻击的原因,特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性,利用这种敏感性设计了一种对抗性防御机制。通过使用...
研究了机器学习算法的对抗性攻击,发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性,并设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击,在多个数据集上测试了其有效性。同时,还研究了使用不同距离度量来衡量对抗性扰动的问题。