本研究提出了一种最大熵强化学习与扩散策略(MaxEntDP),旨在解决传统高斯策略在复杂多目标强化学习中的探索能力不足的问题。实验结果表明,MaxEntDP 优于高斯策略及其他生成模型。
本研究通过引入基于策略的内在奖励函数,解决了强化学习中的探索问题,提高了探索效率,并提出了一种新的离线最大熵强化学习算法。
完成下面两步后,将自动完成登录并继续当前操作。