小红花·文摘

该研究提出了一种名为RoboUniView的新方法，利用视觉语言模型进行机器人操纵。该方法通过学习统一的视图表示来解决摄像机规格和安装位置的变化带来的性能差异，并在CALVIN基准测试中获得了最先进的性能。该模型具有卓越的适应性和灵活性，可以在未知摄像机参数下保持高性能，并能够利用具有不同摄像机参数的多个数据集进行联合多任务学习。