TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型,旨在解决具身视觉跟踪任务。通过联合训练,该模型在动态环境中展现出优越的识别与规划能力,提升了智能体在复杂场景中的跟踪效果。
完成下面两步后,将自动完成登录并继续当前操作。