小红花·文摘

本文介绍了一种新型视觉语言模型（VLM），结合物理概念和语言指令，提升机器人在抓取和放置任务中的表现。通过大规模视频生成预训练，模型在多任务操作中展现出显著的泛化能力。RoboPoint模型在空间可行性预测上优于现有技术，成功率提高30.5%。RoboUniView方法通过统一视图表示，提升了机器人在不同摄像机参数下的适应性和性能。