小红花·文摘

本研究提出生成对抗后缀提示器（GASP），旨在增强大型语言模型对越狱攻击的抵抗力。该方法结合人类可读提示生成与贝叶斯优化，显著提高攻击成功率，缩短训练时间，加快推理速度，为红队测试提供高效解决方案。