小红花·文摘

该研究使用元强化学习和分散训练探索了集体探索策略的产生，发现去中心化的智能体在对抗多个子任务动态组成的大量任务树时表现出了强大的泛化能力，并且能够解决训练过程中从未遇到的新任务。