通过将大型语言模型(LLMs)作为决策制定代理部署到RL中,我们提出了TWOSOME,这是一个新颖的在线框架,使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中,我们评估了TWOSOME的性能,结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能,并展示了优越的一般化能力和原始能力的保持。
通过将LLMs作为决策制定代理部署到RL中,提出了TWOSOME在线框架,提高了样本效率和性能。实验结果表明TWOSOME在决策制定环境和模拟家庭环境中具有优越的一般化能力和原始能力的保持。
完成下面两步后,将自动完成登录并继续当前操作。