小红花·文摘

该文章介绍了WildTeaming框架，通过挖掘用户和聊天机器人的互动来发现新型越狱策略。研究揭示了对最新的LLMs的漏洞，比先进的越狱方法多达4.6倍。还提出了WildJailbreak，一个大规模的开源合成安全数据集，用于研究数据的扩展效应和模型能力在安全训练中的相互作用。