通过状态级轨迹拼接实现鲁棒的离线模仿学习

📝

内容提要

本研究解决了传统模仿学习方法依赖高质量专家数据的局限性,尤其是在数据稀缺和协方差转移方面。通过引入一种状态级搜索框架,能够有效地拼接不完美示范中的状态-动作对,生成多样且信息丰富的训练轨迹,从而显著提升了学习政策的泛化能力和性能,对离线模仿学习领域具有重要的推动作用。

➡️

继续阅读