小红花·文摘

本研究探讨了DeepSeek-R1模型安全性面临的挑战，分析了强化学习在减少有害输出方面的不足。提出了一种结合强化学习与监督微调的混合训练方法，以实现更可靠的无害化效果，并为负责任的应用提供建议和未来研究方向。