小红花·文摘

本文提出了一种基于模型的对抗元强化学习算法，通过最小化次优差异和对抗任务来寻找最优策略，从而提升算法在任务分布变化下的泛化能力和性能。实验结果表明，该算法在多个领域表现优异，具有更高的回报和样本利用效率。