可微分机器人渲染
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了视觉数据与动作数据之间的模态差距,提出了一种可微分机器人渲染的方法,使得机器人的视觉外观可以对控制参数直接进行微分。该方法结合了运动学感知的可变形模型和高斯溅射,能够有效支持不同类型的机器人,并显著提高机器人通过视觉语言模型进行控制的能力。
研究提出了一种新的视觉语言模型范式,提升机器人对新对象和指令的适应性。通过RoboUniView方法,学习统一视图表示,克服摄像机变化的影响。在CALVIN基准测试中,成功率从88.7%提升至96.2%。该模型在未知摄像机参数下仍表现出色,支持多数据集联合学习,展现出卓越的适应性和灵活性。研究代码已公开。