自适应掩码的保持决策转换器用于基于强化学习的推荐系统
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为Q-Transformer的可扩展强化学习方法,用于训练多任务策略。该方法利用人类示范和自主收集的数据,并应用于离线时间差分备份的训练中。Q-Transformer在离线强化学习训练中表现出良好性能,并在真实世界机器人操纵任务中优于其他算法和技术。
🏷️