自适应掩码的保持决策转换器用于基于强化学习的推荐系统
原文中文,约400字,阅读约需1分钟。发表于: 。通过采用自适应遮蔽配置进行序列决策建模,以及引入多尺度分段保留机制以提高计算效率,我们提出了一种新的离线强化学习推荐系统方法,该方法在在线模拟器和离线数据集上的实验分析中明显展示了其优势。
本文介绍了一种名为Q-Transformer的可扩展强化学习方法,用于训练多任务策略。该方法利用人类示范和自主收集的数据,并应用于离线时间差分备份的训练中。Q-Transformer在离线强化学习训练中表现出良好性能,并在真实世界机器人操纵任务中优于其他算法和技术。