自适应掩码的保持决策转换器用于基于强化学习的推荐系统

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为Q-Transformer的可扩展强化学习方法,用于训练多任务策略。该方法利用人类示范和自主收集的数据,并应用于离线时间差分备份的训练中。Q-Transformer在离线强化学习训练中表现出良好性能,并在真实世界机器人操纵任务中优于其他算法和技术。