小红花·文摘

本文介绍了一种新型四足机器人视觉语言行为任务（QUAR-VLA），通过整合视觉信息和指令提升机器人智能。使用QUART模型和QUARD数据集评估，结果显示该方法能生成高效的机器人策略，增强机器人对新对象的泛化能力和语义推理能力。此外，提出的视觉语言行动模型（VLA）通过自然语言与机器人行动结合，实现了更优的训练效果。