ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt),通过利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施并引发 LLMs 的不良行为。实验结果表明,ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。
🎯
关键要点
- 本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt)。
- ArtPrompt 利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施。
- 引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge(ViTC)。
- 实验展示了五种 SOTA LLMs(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)在识别 ASCII 艺术提示方面的困难。
- 评估结果表明,ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。
➡️