本研究提出了一种新方法,解决离线强化学习中Q值过高估计的问题,特别是在动态推荐系统中。通过梯度反转学习构建平衡状态表示,支持反事实探索,并引入Q值分解策略,显著提升玩家收益和平台推荐效果。
完成下面两步后,将自动完成登录并继续当前操作。