AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了AdvWave框架,旨在提高大型音频语言模型的安全性,防止越狱攻击。通过双阶段优化和适应性对抗目标搜索,AdvWave在多个模型上实现了比基线方法高出40%的攻击成功率,具有重要应用价值。

🎯

关键要点

  • 本研究提出了AdvWave框架,旨在提高大型音频语言模型的安全性,防止越狱攻击。
  • AdvWave采用双阶段优化方法和适应性对抗目标搜索算法,有效克服了梯度破裂和优化过程中的复杂性。
  • 研究结果表明,AdvWave在多个先进的LALMs上实现了比基线方法高出40%的越狱攻击成功率,具有重要的应用价值。
➡️

继续阅读