本研究提出了一种最大熵强化学习与扩散策略(MaxEntDP),旨在解决传统高斯策略在复杂多目标强化学习中的探索能力不足的问题。实验结果表明,MaxEntDP 优于高斯策略及其他生成模型。
完成下面两步后,将自动完成登录并继续当前操作。