ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt),通过利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施并引发 LLMs 的不良行为。实验结果表明,ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。

🎯

关键要点

  • 本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt)。
  • ArtPrompt 利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施。
  • 引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge(ViTC)。
  • 实验展示了五种 SOTA LLMs(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)在识别 ASCII 艺术提示方面的困难。
  • 评估结果表明,ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。
➡️

继续阅读