本研究提出了一种改进的条件扩散策略,通过精炼采样分布来避免模仿学习中样本行动的失败。利用成功示范的数据进行推断,可以有效恢复行动,并在多个任务中优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。