小红花·文摘

本研究提出了一种新型多轮红队代理 extit{AlgName}，旨在解决大语言模型（LLMs）被恶意利用的安全风险。该框架结合全球战术学习和地方提示学习，在JailbreakBench上实现了90%以上的攻击成功率，证明了动态学习在识别和利用模型漏洞中的有效性。