研究了无监督机器人操作中多模态变分自编码器的应用和模型不变训练方法,提高了模型性能并评估了个体任务的挑战。揭示了多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的优势和限制。
本论文提出了名为DU-VLG的框架,通过双向生成视觉和语言,提高图像生成质量,并在视觉和语言生成任务中获得了比以前的最先进系统更高的得分。
该研究提出了一种基于因果学习的统一框架CausalVLN,通过建立视觉和语言的因果模型,实现了无偏特征表达和增强智能体的泛化能力。实验证明该方法在三个VLN数据集上的优越性,并缩小了已知和未知环境之间的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。