噪声条件能量基础退火奖励(NEAR):一种基于观察的模仿学习生成框架

📝

内容提要

本研究解决了通过仅状态专家运动轨迹学习复杂物理依赖机器人运动策略的模仿学习问题。提出的NEAR框架利用去噪得分匹配构建专家运动数据分布的多种扰动版本,学习数据分布能量函数作为奖励函数,通过强化学习学习模仿策略。该方法在复杂的人形任务中表现良好,克服了对抗性模仿学习的优化挑战,并在多个模仿设置中实现了与AMP相当的结果。

➡️

继续阅读