小红花·文摘

本研究提出了一种新的混合离线-在线强化学习方法H2O，利用有限真实数据和模拟器探索，解决了现有算法的缺陷。DASCO方法通过双生成器解决离线强化学习中的矛盾目标问题，显著提升了性能。此外，研究探讨了基于模型的离线强化学习方法PerSim及用户模拟器的应用，以提高数据效率和策略学习效果。