从解决问题到教授解决问题：通过强化学习将大型语言模型与教育法对齐

本研究解决了大型语言模型（LLMs）在教育中应用中的一个关键问题，即其为直接问答优化而忽视了有效教育法需要战略性保留答案的需求。我们提出了一种基于在线强化学习的对齐框架，能够迅速将LLMs转变为有效的导师，通过强化教育质量和指导性问题解决，且在无需人工注释的情况下训练出的7B参数导师模型，表现与更大规模的专有模型相当，具有显著的教育影响。

本研究提出了一种在线强化学习框架，旨在解决大型语言模型在教育中忽视有效教学法的问题。该框架能够迅速将模型转变为有效的导师，训练出的7B参数模型在教育质量和指导性问题解决方面表现优异，产生了显著影响。

在线强化学习大型语言模型导师强化学习教育有效教学法