小红花·文摘

本研究提出了一种新方法，解决离线强化学习中Q值过高估计的问题，特别是在动态推荐系统中。通过梯度反转学习构建平衡状态表示，支持反事实探索，并引入Q值分解策略，显著提升玩家收益和平台推荐效果。