小红花·文摘

本研究提出了一种名为文本到决策智能体（T2DA）的新框架，旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习，实现了零样本文本到决策的生成，并在MuJoCo和Meta-World基准上表现优于多个基线方法。