面向交互推荐系统中的长期用户反馈验证

通过重新访问基于回顾数据集的 IRS 实验，我们将 RL 模型与简单的奖励模型进行比较，发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型；而将长期奖励赋予更高权重会导致推荐性能下降；用户反馈对基准数据集仅有长期影响。因此，我们得出结论：数据集需要经过谨慎验证，并且在评估 RL-IRS 方法时应包含简单贪婪基线。

本文介绍了一种通过模型驱动的增强学习方法来优化推荐系统的推荐策略，并在真实世界的电子商务数据集上验证了该方法的有效性。该方法将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户-代理交互环境模拟器来预训练和评估模型参数。同时，还提出了一种将列表式推荐纳入推荐系统的实验方法。

增强学习推荐策略推荐系统模型驱动电子商务数据集