小红花·文摘

通过将大型语言模型（LLMs）作为决策制定代理部署到RL中，我们提出了TWOSOME，这是一个新颖的在线框架，使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了TWOSOME的性能，结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Reflect-RL: 用于语言模型的两人在线强化学习微调

BriefGPT - AI 论文速递 ·

通过将LLMs作为决策制定代理部署到RL中，提出了TWOSOME在线框架，提高了样本效率和性能。实验结果表明TWOSOME在决策制定环境和模拟家庭环境中具有优越的一般化能力和原始能力的保持。

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

BriefGPT - AI 论文速递 ·