RainbowPlus:通过进化质量-多样性搜索增强对抗性提示生成
📝
内容提要
本研究解决了大型语言模型(LLM)在对抗性提示生成中的安全性和多样性不足的问题。提出的RainbowPlus框架基于进化计算,采用自适应质量-多样性搜索,能够存储多样且高质量的提示,并显著提高生成效率和提示的独特性。实验结果显示,RainbowPlus在攻击成功率和多样性方面超过了现有方法,为LLM安全评估提供了可扩展的工具。
➡️