ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击
原文中文,约500字,阅读约需2分钟。发表于: 。大型语言模型(LLMs)的安全性对其使用至关重要。本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt)并引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge(ViTC)。论文展示了五种 SOTA LLMs(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)在识别 ASCII...
本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt),通过利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施并引发 LLMs 的不良行为。实验结果表明,ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。