SimuDICE:通过世界模型更新和DICE估计的离线策略优化
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出SimuDICE框架,旨在解决离线强化学习中的策略导出问题。通过生成合成经验和调整采样概率,提升经验质量,实验结果表明其性能与现有算法相当。
🎯
关键要点
- 本研究提出SimuDICE框架,解决离线强化学习中的策略导出问题。
- 目标策略与行为策略间分布不匹配以及样本量有限导致有效策略导出困难。
- SimuDICE框架利用世界模型生成合成经验,迭代改进初始策略。
- 通过DIstribution Correction Estimation(DICE)调整状态-动作对的采样概率,提高合成经验质量。
- 实验结果表明,SimuDICE在使用较少的预收集经验和规划步骤时,性能与现有算法相当。
- SimuDICE在不同数据收集策略下保持稳健性。
➡️