长期离线策略评估与学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究将内容探索任务形式化为带有延迟奖励的多臂赌博问题,通过预测延迟奖励的模型和赌博算法提高推荐系统性能。
🎯
关键要点
- 推荐系统在在线平台中普遍存在,旨在提高用户的长期满意度。
- 本研究将内容探索任务形式化为带有延迟奖励的多臂赌博问题。
- 选择学习信号时存在权衡:等待全部奖励可能影响学习速度,短期代理奖励不完美反映长期目标。
- 研究通过开发预测延迟奖励的模型来解决挑战,结合完整观测和部分观测的信息。
- 设计了一种利用新预测模型的赌博算法,平衡探索和开发以快速学习长期成功的内容。
- 方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。
- 研究结果表明,该方法显著提高了性能,相比于优化短期代理或等待长期结果的方法。
➡️