小红花·文摘

本研究提出了一种新方法OTPR，结合最优运输理论与强化学习，解决了扩散策略在分布转移中的鲁棒性问题。实验结果表明，OTPR在复杂稀疏奖励环境中表现优异，促进了模仿学习与强化学习的结合。