小红花·文摘

本研究提出了AdvWave框架，旨在提高大型音频语言模型的安全性，防止越狱攻击。通过双阶段优化和适应性对抗目标搜索，AdvWave在多个模型上实现了比基线方法高出40%的攻击成功率，具有重要应用价值。