该文介绍了一种名为MCRL的新型强化学习推荐器,通过对比学习来优化奖励函数和状态转移函数,解决了离线数据集的稀疏性以及负反馈无法获取的问题。实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
完成下面两步后,将自动完成登录并继续当前操作。