Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为文本到决策智能体(T2DA)的新框架,旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习,实现了零样本文本到决策的生成,并在MuJoCo和Meta-World基准上表现优于多个基线方法。

🎯

关键要点

  • 本研究提出了一种名为文本到决策智能体(T2DA)的新框架。
  • T2DA框架旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。
  • 该框架通过将多任务决策数据编码为动态感知的嵌入空间,实现了零样本文本到决策的生成。
  • T2DA借鉴了CLIP的思想,用自然语言直接监督通用策略学习。
  • 实验证明,T2DA在MuJoCo和Meta-World基准上表现优于多个基线方法。
➡️

继续阅读