文本环境中的强化学习智能体的语言引导探索

原文约300字,阅读约需1分钟。发表于:

通过使用预训练语言模型(称为 GUIDE)为强化学习代理(称为 EXPLORER)提供决策级别的指导,我们引入了 Language Guided Exploration(LGE)框架,并观察到 LGE 在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。

研究开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率。该模型使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并使其在真实环境中的性能提高了三倍。

相关推荐 去reddit讨论