Reflect-RL: 用于语言模型的两人在线强化学习微调
BriefGPT - AI 论文速递 · 2024-02-20T00:00:00Z
通过将大型语言模型(LLMs)作为决策制定代理部署到RL中,我们提出了TWOSOME,这是一个新颖的在线框架,使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中,我们评估了TWOSOME的性能,结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能,并展示了优越的一般化能力和原始能力的保持。
原文中文,约200字,阅读约需1分钟。