小红花·文摘

本文介绍了STAR-1，一个为大型推理模型设计的高质量、安全数据集，规模为1K。通过整合多种开源安全数据集，制定安全政策并生成推理样本，安全对齐性能显著提升，实验结果显示安全性能平均提高40%，推理能力仅下降1.1%。