文本环境中的强化学习智能体的语言引导探索 原文约300字,阅读约需1分钟。发表于:2024-03-05T00:00:00Z。 通过使用预训练语言模型(称为 GUIDE)为强化学习代理(称为 EXPLORER)提供决策级别的指导,我们引入了 Language Guided Exploration(LGE)框架,并观察到 LGE 在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。 研究开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率。该模型使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并使其在真实环境中的性能提高了三倍。 世界模型 代理 可解释性 安全性 强化学习 智能体 语言引导