小红花·文摘

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。通过联合训练，该模型在动态环境中展现出优越的识别与规划能力，提升了智能体在复杂场景中的跟踪效果。