针对 GPT-4o 的语音越狱攻击

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

GPT-4o的新型声音模式可能导致新的攻击面。本文首次评估了针对GPT-4o声音模式的越狱攻击方法VoiceJailbreak,成功率提高到0.778。实验探索了交互步骤、虚构写作的关键元素以及不同语言对攻击的影响,并提升了攻击性能。希望研究能帮助构建更安全、规范的MLLMs。

🎯

关键要点

  • GPT-4o的新型多模态大型语言模型模糊了虚构与现实的界限。
  • 声音模式的引入可能导致新的攻击面。
  • 本文首次系统评估了针对GPT-4o声音模式的越狱攻击方法VoiceJailbreak。
  • VoiceJailbreak通过生成简单有效的越狱提示,将攻击成功率从0.033提高到0.778。
  • 研究探索了交互步骤、虚构写作的关键元素以及不同语言对攻击的影响。
  • 通过高级虚构写作技术进一步提升了攻击性能。
  • 研究旨在帮助构建更安全、更规范的多模态大型语言模型。
➡️

继续阅读