【论文速读】| 针对大语言模型的有效且具有规避性的模糊测试驱动越狱攻击
📝
内容提要
该论文提出了一种新颖的越狱攻击框架。该方法基于模糊测试技术,不再依赖于手动设计的越狱模板,能够自动生成语义一致且简短的提示词,并通过两级判别模块来准确检测成功的越狱行为。
🏷️
标签
➡️
该论文提出了一种新颖的越狱攻击框架。该方法基于模糊测试技术,不再依赖于手动设计的越狱模板,能够自动生成语义一致且简短的提示词,并通过两级判别模块来准确检测成功的越狱行为。