小红花·文摘

本研究探讨了马尔科夫决策过程中的主动探索问题，提出了生成对抗性探索（GAEX）和基于模型的强化学习算法等新方法。这些算法在不同环境中显著提升了探索性能和学习效率。