本研究提出了一种新型多轮红队代理 extit{AlgName},旨在解决大语言模型(LLMs)被恶意利用的安全风险。该框架结合全球战术学习和地方提示学习,在JailbreakBench上实现了90%以上的攻击成功率,证明了动态学习在识别和利用模型漏洞中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。