【论文速读】| 针对大语言模型的有效且具有规避性的模糊测试驱动越狱攻击

📝

内容提要

该论文提出了一种新颖的越狱攻击框架。该方法基于模糊测试技术,不再依赖于手动设计的越狱模板,能够自动生成语义一致且简短的提示词,并通过两级判别模块来准确检测成功的越狱行为。

🏷️

标签

➡️

继续阅读