大型语言模型中非标准 Unicode 字符对安全和理解的影响
原文中文,约400字,阅读约需1分钟。发表于: 。通过比较分析十五个不同模型的表现,我们揭示了这些模型固有的脆弱性,挑战了它们人类级语言理解的观念,并探讨了非标准 Unicode 字符对 LLMs 的影响及其在最佳性能 LLMs 上的保护机制,包括 GPT-4、Gemini 1.5 Pro、LlaMA-3-70B 和 Claude 3 Opus。
本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt),并引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge(ViTC)。论文展示了五种 SOTA LLMs 在识别 ASCII 艺术形式的提示方面存在困难,并成功开发了越狱攻击 ArtPrompt,通过利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施并引发 LLMs 的不良行为。对五种 SOTA LLMs 进行了 ArtPrompt 的评估,结果表明 ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。