通过视觉基础模型和离线强化学习增强体感视觉跟踪

提出了一个结合了视觉基础模型和离线强化学习的新框架，以赋予具有体内视觉的智能体进行视觉跟踪任务，并通过使用蒙版重定向机制和多级数据收集策略进一步提高了跟踪结果的稳健性和泛化性。通过对多种高保真度场景进行的评估，结果表明该方法在样本效率、对干扰物的稳健性和对未见情况和目标的泛化能力方面明显优于现有的方法，并证明了学习到的跟踪器从虚拟世界到真实场景的可迁移性。

该研究提出了一种新的框架，结合了视觉基础模型和离线强化学习，用于赋予具有体内视觉的智能体进行视觉跟踪任务。通过使用蒙版重定向机制和多级数据收集策略，进一步提高了跟踪结果的稳健性和泛化性。评估结果表明，该方法在样本效率、对干扰物的稳健性和对未见情况和目标的泛化能力方面优于现有方法，并证明了学习到的跟踪器在虚拟世界和真实场景中的可迁移性。

框架泛化能力离线强化学习稳健性视觉跟踪