Reinforcement Learning and Distillation: Understanding Accuracy and Capability in Large Language Model Inference

本研究解决了强化学习与蒸馏在大型语言模型推理中对准确性与能力影响的差异。通过深入分析，我们发现强化学习不能改善模型能力，因其主要关注简单问题的准确性，而蒸馏则能在引入新知识时有效提升能力。这些发现有助于更好地理解语言模型的推理机制。

本研究探讨了强化学习与蒸馏对大型语言模型推理的影响。结果显示，强化学习提高了准确性但未增强能力，而蒸馏则有效引入新知识，提升了模型能力。这有助于理解语言模型的推理机制。

model 强化学习推理能力蒸馏语言模型