本研究提出生成对抗后缀提示器(GASP),旨在增强大型语言模型对越狱攻击的抵抗力。该方法结合人类可读提示生成与贝叶斯优化,显著提高攻击成功率,缩短训练时间,加快推理速度,为红队测试提供高效解决方案。
完成下面两步后,将自动完成登录并继续当前操作。