本研究提出SimuDICE框架,旨在解决离线强化学习中目标策略与行为策略分布不匹配及样本量有限的问题。通过世界模型生成合成经验,迭代改进策略,并利用DICE调整状态-动作对的采样概率,从而提高经验质量。实验结果表明,SimuDICE在使用较少经验和规划步骤时,性能与现有算法相当,并在不同数据收集策略下表现稳健。
完成下面两步后,将自动完成登录并继续当前操作。