本研究分析了大型语言模型(LLMs)的安全性,探讨了强化学习在减少有害输出方面的局限性,并提出了一种结合强化学习与监督微调的混合训练方法,以提升DeepSeek-R1的无害化效果,同时提供了应用建议和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。