UI-TARS:利用长期记忆和反思调整不断优化

UI-TARS:利用长期记忆和反思调整不断优化

💡 原文中文,约8900字,阅读约需22分钟。
📝

内容提要

字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体,经过三阶段训练,支持中英文图片和指令。该模型训练数据量大,涵盖多种感知任务,提升了推理能力和动态适应性。模型已开源,但数据和训练代码未公开。

🎯

关键要点

  • 字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体。

  • UI-TARS经过三阶段训练,支持中英文图片和指令。

  • 模型训练数据量大,涵盖多种感知任务,提升了推理能力和动态适应性。

  • 模型已开源,但数据和训练代码未公开。

  • 感知能力训练加入了新的任务,如Dense Captioning和State Transition Captioning。

  • 训练数据规模是大部分工作的10倍以上,效果显著。

  • 采用Online Trace Bootstrapping和Reflection Tuning方法进行模型优化。

  • 推理数据构造包含GUI教程和思维增强,提升了模型的推理能力。

  • 使用直接偏好优化(DPO)来优化模型决策,强化最优动作。

  • 实验结果显示UI-TARS在多个方向上表现出色,尤其在域外评估中系统2推理展现出优势。

延伸问答

UI-TARS是什么?

UI-TARS是字节跳动发布的基于Qwen2-VL微调的自动化GUI交互智能体。

UI-TARS的训练过程是怎样的?

UI-TARS经过三阶段训练,使用大量的感知和决策数据,逐步引入高质量数据以提升模型能力。

UI-TARS支持哪些语言的指令?

UI-TARS支持中英文的图片和指令。

UI-TARS在推理能力上有哪些提升?

UI-TARS通过引入新的任务和优化方法,显著提升了推理能力和动态适应性。

UI-TARS的开源情况如何?

UI-TARS的模型已开源,但其训练数据和代码未公开。

UI-TARS使用了哪些优化方法?

UI-TARS采用了Online Trace Bootstrapping和Reflection Tuning等方法进行模型优化。

➡️

继续阅读