本研究探讨了马尔科夫决策过程中的主动探索问题,提出了生成对抗性探索(GAEX)和基于模型的强化学习算法等新方法。这些算法在不同环境中显著提升了探索性能和学习效率。
完成下面两步后,将自动完成登录并继续当前操作。