小红花·文摘

本文提出了一种耦合分布随机专家蒸馏方法，旨在解决在线模仿学习中因对抗奖励或值公式引起的不稳定性问题。该方法通过在世界模型的潜在空间中联合估计专家和行为分布，实现了稳定的性能和专家级结果，优于传统对抗方法。