本文介绍了STAR-1,一个为大型推理模型设计的高质量、安全数据集,规模为1K。通过整合多种开源安全数据集,制定安全政策并生成推理样本,安全对齐性能显著提升,实验结果显示安全性能平均提高40%,推理能力仅下降1.1%。
该文章介绍了WildTeaming框架,通过挖掘用户和聊天机器人的互动来发现新型越狱策略。研究揭示了对最新的LLMs的漏洞,比先进的越狱方法多达4.6倍。还提出了WildJailbreak,一个大规模的开源合成安全数据集,用于研究数据的扩展效应和模型能力在安全训练中的相互作用。
完成下面两步后,将自动完成登录并继续当前操作。