本文介绍了一种新颖的批量逆向强化学习模型,通过使用折扣的稳态分布修正结合学习奖励和推荐代理评估,同时满足组合要求,并通过贝尔曼转化和 KL 正则化来改进效果和效率。
完成下面两步后,将自动完成登录并继续当前操作。