本研究探讨了DeepSeek-R1模型安全性面临的挑战,分析了强化学习在减少有害输出方面的不足。提出了一种结合强化学习与监督微调的混合训练方法,以实现更可靠的无害化效果,并为负责任的应用提供建议和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。