Reflect-RL: 用于语言模型的两人在线强化学习微调

使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型，通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性，并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。

通过将大型语言模型（LLMs）作为决策制定代理部署到RL中，我们提出了TWOSOME，这是一个新颖的在线框架，使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了TWOSOME的性能，结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

TWOSOME 一般化能力决策制定代理大型语言模型样本效率语言模型