本文提出了一种耦合分布随机专家蒸馏方法,旨在解决在线模仿学习中因对抗奖励或值公式引起的不稳定性问题。该方法通过在世界模型的潜在空间中联合估计专家和行为分布,实现了稳定的性能和专家级结果,优于传统对抗方法。
完成下面两步后,将自动完成登录并继续当前操作。