本研究提出了AutoRedTeamer,一个全自动红队攻击框架,旨在提升大型语言模型的安全评估。该框架采用多代理架构和记忆引导机制,成功率提高20%,计算成本降低46%。
完成下面两步后,将自动完成登录并继续当前操作。