Cross-Entropy Attacks on Language Models via Rare Event Simulation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种交叉熵攻击方法,旨在解决黑箱文本对抗攻击中的模型信息缺乏和文本离散性问题。通过优化软标签和硬标签的对抗目标,实验证明该方法在攻击性能、不可察觉性和句子质量上具有显著优势。

🎯

关键要点

  • 本研究提出了一种交叉熵攻击方法,旨在解决黑箱文本对抗攻击中的模型信息缺乏和文本离散性问题。
  • 通过优化软标签和硬标签的对抗目标,提升了攻击性能。
  • 实验证明该方法在不可察觉性和句子质量上具有显著优势。
➡️

继续阅读