小红花·文摘

本文介绍了一种新颖的批量逆向强化学习模型，通过使用折扣的稳态分布修正结合学习奖励和推荐代理评估，同时满足组合要求，并通过贝尔曼转化和 KL 正则化来改进效果和效率。