部分可观测下的等变强化学习

本研究解决了在部分可观测的环境中，机器人学习的样本效率问题。通过将特定群体对称性编码到神经网络中，提出了一种新的等变强化学习方法，使得智能体能够在相关场景中重用先前的解决方案。实验结果表明，等变智能体在样本效率和最终性能上显著优于非等变方法，具有潜在的影响力。

本文研究了自然界中对称模式的识别和分析，以及在物理学和化学结构研究中的应用。通过利用协同多智能体强化学习问题中的欧几里得对称性，设计了具有对称约束的神经网络架构，表现出优越的性能和泛化能力。