小红花·文摘

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL，旨在解决静态数据下策略开发的稳健性问题。实验结果表明，MORAL在政策学习和样本效率方面优于传统方法，具有广泛的适用性。