本文介绍了一种新型四足机器人视觉语言行为任务(QUAR-VLA),通过整合视觉信息和指令提升机器人智能。使用QUART模型和QUARD数据集评估,结果显示该方法能生成高效的机器人策略,增强机器人对新对象的泛化能力和语义推理能力。此外,提出的视觉语言行动模型(VLA)通过自然语言与机器人行动结合,实现了更优的训练效果。
完成下面两步后,将自动完成登录并继续当前操作。