小红花·文摘

本文介绍了计划辅助控制(SAC-X)和逆强化学习(IRL)的研究进展，重点探讨了多智能体协作、内在奖励设计及其在复杂环境中的应用，强调了内在奖励在稀疏奖励情况下的重要性，并提出了RLeXplore框架以支持无监督学习。