本文介绍了一种新型视觉语言模型(VLM),结合物理概念和语言指令,提升机器人在抓取和放置任务中的表现。通过大规模视频生成预训练,模型在多任务操作中展现出显著的泛化能力。RoboPoint模型在空间可行性预测上优于现有技术,成功率提高30.5%。RoboUniView方法通过统一视图表示,提升了机器人在不同摄像机参数下的适应性和性能。
完成下面两步后,将自动完成登录并继续当前操作。