小红花·文摘

本研究提出了AutoRedTeamer，一个全自动红队攻击框架，旨在提升大型语言模型的安全评估。该框架采用多代理架构和记忆引导机制，成功率提高20%，计算成本降低46%。