小红花·文摘

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态-动作访问边缘分布，提供了更快且更高效的在线强化学习方法。