AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了AdvWave框架,旨在提高大型音频语言模型的安全性,防止越狱攻击。通过双阶段优化和适应性对抗目标搜索,AdvWave在多个模型上实现了比基线方法高出40%的攻击成功率,具有重要应用价值。
🎯
关键要点
- 本研究提出了AdvWave框架,旨在提高大型音频语言模型的安全性,防止越狱攻击。
- AdvWave采用双阶段优化方法和适应性对抗目标搜索算法,有效克服了梯度破裂和优化过程中的复杂性。
- 研究结果表明,AdvWave在多个先进的LALMs上实现了比基线方法高出40%的越狱攻击成功率,具有重要的应用价值。
➡️