SimuDICE: Offline Policy Optimization Through World Model Updates and DICE Estimation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出SimuDICE框架,旨在解决离线强化学习中目标策略与行为策略分布不匹配及样本量有限的问题。通过世界模型生成合成经验,迭代改进策略,并利用DICE调整状态-动作对的采样概率,从而提高经验质量。实验结果表明,SimuDICE在使用较少经验和规划步骤时,性能与现有算法相当,并在不同数据收集策略下表现稳健。
🎯
关键要点
- SimuDICE框架旨在解决离线强化学习中目标策略与行为策略分布不匹配的问题。
- 该框架通过世界模型生成合成经验,迭代改进策略。
- 利用DICE调整状态-动作对的采样概率,以提高经验质量。
- 实验结果显示,SimuDICE在使用较少经验和规划步骤时,性能与现有算法相当。
- SimuDICE在不同数据收集策略下表现稳健。
➡️