BriefGPT - AI 论文速递 ·

解锁没有肯定短语的对抗后缀优化：通过大模型作为优化器的高效黑箱越狱

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）面临的越狱攻击及其防御方法，提出了PAIR算法和ReNeLLM框架以提高攻击成功率并降低时间成本。同时介绍了SELFDEFEND防御框架，有效降低攻击成功率。研究揭示了当前防御的不足，并提出改进措施以增强LLMs的安全性。

🎯

❓

PAIR算法是一种用于生成黑盒访问的语义越狱的算法，能够自动生成越狱攻击目标模型的查询，通常只需少于二十次查询即可成功越狱。

ReNeLLM框架旨在提高大型语言模型的攻击成功率并降低时间成本。

SELFDEFEND防御框架通过建立影子LLM防御实例来保护目标LLM实例，有效降低攻击成功率，同时对正常用户提示的延迟影响微乎其微。

当前的防御方法在保护大型语言模型方面存在不足，研究揭示了这些不足并提出了改进措施以增强安全性。

WordGame攻击和AutoBreach方法旨在打破大型语言模型的安全防御机制，以识别安全漏洞并提高破解成功率。

SelfDefend框架可使GPT-3.5的攻击成功率下降8.97-95.74％，平均降低60％，对正常查询的影响微乎其微。

🏷️