💡
原文中文,约8900字,阅读约需22分钟。
📝
内容提要
字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体,经过三阶段训练,支持中英文图片和指令。该模型训练数据量大,涵盖多种感知任务,提升了推理能力和动态适应性。模型已开源,但数据和训练代码未公开。
🎯
关键要点
-
字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体。
-
UI-TARS经过三阶段训练,支持中英文图片和指令。
-
模型训练数据量大,涵盖多种感知任务,提升了推理能力和动态适应性。
-
模型已开源,但数据和训练代码未公开。
-
感知能力训练加入了新的任务,如Dense Captioning和State Transition Captioning。
-
训练数据规模是大部分工作的10倍以上,效果显著。
-
采用Online Trace Bootstrapping和Reflection Tuning方法进行模型优化。
-
推理数据构造包含GUI教程和思维增强,提升了模型的推理能力。
-
使用直接偏好优化(DPO)来优化模型决策,强化最优动作。
-
实验结果显示UI-TARS在多个方向上表现出色,尤其在域外评估中系统2推理展现出优势。
❓
延伸问答
UI-TARS是什么?
UI-TARS是字节跳动发布的基于Qwen2-VL微调的自动化GUI交互智能体。
UI-TARS的训练过程是怎样的?
UI-TARS经过三阶段训练,使用大量的感知和决策数据,逐步引入高质量数据以提升模型能力。
UI-TARS支持哪些语言的指令?
UI-TARS支持中英文的图片和指令。
UI-TARS在推理能力上有哪些提升?
UI-TARS通过引入新的任务和优化方法,显著提升了推理能力和动态适应性。
UI-TARS的开源情况如何?
UI-TARS的模型已开源,但其训练数据和代码未公开。
UI-TARS使用了哪些优化方法?
UI-TARS采用了Online Trace Bootstrapping和Reflection Tuning等方法进行模型优化。
➡️