小红花·文摘

本文提出了一种基于模型行动选择的强化学习方法，解决了探索与利用的权衡问题。通过贝叶斯信息理论和信息瓶颈机制，改进了状态探索和动态模型学习，并介绍了新的策略搜索算法和状态抽象框架，显著提升了样本效率和任务表现，尤其在稀疏奖励环境中表现优异。