结构之法算法之道 ·

TrackVLA——开放世界下的四足具身视觉跟踪EVT(智能跟随)：集目标识别与轨迹规划为一体的VLA，不怕高动态与遮挡

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。通过联合训练，该模型在动态环境中展现出优越的识别与规划能力，提升了智能体在复杂场景中的跟踪效果。

🎯

关键要点

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。
TrackVLA通过联合训练在动态环境中展现出优越的识别与规划能力，提升了智能体在复杂场景中的跟踪效果。
具身视觉跟踪任务要求智能体持续跟踪指定目标，依赖于目标识别和轨迹规划两项高度关联技能。
现有方法通常将识别与轨迹规划解耦，导致误差积累，TrackVLA通过统一模型实现两者的协同优化。
TrackVLA采用相同的token编码和大语言模型前向机制来预测下一个token，优化识别与规划的紧密耦合。
作者收集了85.5万条视频识别样本和85.5万条机器人跟踪样本，以实现对TrackVLA的全面训练。
TrackVLA在高度动态环境中表现出更优异的性能，具备鲁棒的感知能力和灵活的运动控制。
TrackVLA的架构包括观测编码、LLM的前向传播和基于锚点的扩散动作模型。
在推理阶段，使用特殊token [Track] 来指示当前任务，LLM根据视觉观测回答问题或预测轨迹。

❓

延伸问答

TrackVLA的主要功能是什么？

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。

TrackVLA如何提高跟踪效果？

TrackVLA通过联合训练目标识别和轨迹规划，优化了两者的协同作用，从而提升了在复杂场景中的跟踪效果。

TrackVLA在动态环境中的表现如何？

TrackVLA在高度动态环境中表现出优异的性能，具备鲁棒的感知能力和灵活的运动控制。

TrackVLA的训练数据来源是什么？

TrackVLA的训练数据包括85.5万条视频识别样本和85.5万条机器人跟踪样本，确保了全面的训练。

TrackVLA如何处理目标识别和轨迹规划的耦合问题？

TrackVLA通过统一模型实现目标识别与轨迹规划的协同优化，避免了误差积累。

TrackVLA的架构包含哪些主要部分？

TrackVLA的架构包括观测编码、LLM的前向传播和基于锚点的扩散动作模型。

🏷️

继续阅读

华大电子主办智能表计安全MCU研讨会
华大电子于5月12日在山东泰安举办了“智能表计安全MCU研讨会”，回顾了安全MCU业务发展，并介绍了超低功耗CIU32L0系列产品，主要应用于智能燃气表、...
Realtime-VLA V2——如何让vla运行的更快：从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确
本文探讨了基于消费级GPU的实时视觉-语言模型（VLA）机器人控制技术。通过优化推理流程，推理延迟降低至27.3毫秒，抓取成功率达到100%。研究表明，V...
在Slack中整合你的智能代理堆栈
Slack正在计划在其聊天应用中整合用户的智能代理。首席产品官Jaime DeLanghe讨论了智能代理与机器人之间的相似性，以及如何在企业聊天中管理丰富...
以下是我们从REI周年大促销中挑选的40个最爱优惠
REI的周年大促销已开始，提供帐篷、睡垫和炉具等户外装备折扣，持续到5月25日。REI会员可享受额外20%折扣，推荐产品包括Garmin手表、便携式蓝牙音...
Django 6.1 alpha 1 发布
Django 6.1 alpha 1已发布，标志着6.1版本发布周期的第一阶段。该版本包含新功能和可用性改进，欢迎社区进行早期测试，但不适合生产使用。有关...
我们在2026年I/O大会上宣布的100项内容
在2026年Google I/O大会上，谷歌发布了Gemini 3.5 Flash和Gemini Omni等新模型和工具，旨在提升用户的创造、搜索和购物体...