小红花·文摘

该研究提出了多种基于模型的离线强化学习算法，如BPR、MABE和MOReL，显著提升了策略性能和泛化能力。通过动态模型训练与策略学习的结合，解决了目标不匹配问题，并在嘈杂环境中实现了稳健决策。此外，研究探讨了因果建模与强化学习的结合，展示了其在现实应用中的潜力。