小红花·文摘

本文介绍了一种基于MDP同态网络的深度强化学习方法，通过等变性约束提升智能体在对称环境中的性能和样本效率。研究表明，等变卷积神经网络在处理对称性方面表现优越，并在多智能体强化学习中具有良好的泛化能力。引入对称约束和正则化后，策略和价值函数的构建效率得以提升。