小红花·文摘

本论文介绍了一种视觉模型驱动的强化学习方法，能够在动态环境中有效运行并对噪声和干扰具有弹性。作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时快速适应。通过模拟基准测试和真实环境中的实验，作者展示了该方法的有效性。