小红花·文摘

本文介绍了一种新的离线值排名算法，通过统一的期望最大化框架，提高用户长期回报和排名效率。理论和实验表明，该算法在无在线交互的情况下优化学习策略，提升未来回报和排名效果。