NotionNext BLOG ·

UI-TARS：利用长期记忆和反思调整不断优化

💡 原文中文，约8900字，阅读约需22分钟。

📝

内容提要

字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体，经过三阶段训练，支持中英文图片和指令。该模型训练数据量大，涵盖多种感知任务，提升了推理能力和动态适应性。模型已开源，但数据和训练代码未公开。

🎯

关键要点

字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体。
UI-TARS经过三阶段训练，支持中英文图片和指令。
模型训练数据量大，涵盖多种感知任务，提升了推理能力和动态适应性。
模型已开源，但数据和训练代码未公开。
感知能力训练加入了新的任务，如Dense Captioning和State Transition Captioning。
训练数据规模是大部分工作的10倍以上，效果显著。
采用Online Trace Bootstrapping和Reflection Tuning方法进行模型优化。
推理数据构造包含GUI教程和思维增强，提升了模型的推理能力。
使用直接偏好优化（DPO）来优化模型决策，强化最优动作。
实验结果显示UI-TARS在多个方向上表现出色，尤其在域外评估中系统2推理展现出优势。

❓

延伸问答

UI-TARS是什么？

UI-TARS是字节跳动发布的基于Qwen2-VL微调的自动化GUI交互智能体。

UI-TARS的训练过程是怎样的？

UI-TARS经过三阶段训练，使用大量的感知和决策数据，逐步引入高质量数据以提升模型能力。

UI-TARS支持哪些语言的指令？

UI-TARS支持中英文的图片和指令。

UI-TARS在推理能力上有哪些提升？

UI-TARS通过引入新的任务和优化方法，显著提升了推理能力和动态适应性。

UI-TARS的开源情况如何？

UI-TARS的模型已开源，但其训练数据和代码未公开。

UI-TARS使用了哪些优化方法？

UI-TARS采用了Online Trace Bootstrapping和Reflection Tuning等方法进行模型优化。

🏷️

继续阅读

电信日特稿｜绿盟科技汤旭：智能体安全不再是可选项，产业亟待共建可信生态
文章讨论了智能体在电信行业的应用及其面临的安全挑战，包括决策劫持、工具滥用、算力耗尽和数据泄露等风险。绿盟科技提出了全生命周期的智能体安全防护体系，强调安...
智能体生物学将重走软件路：数据分析先于推理自主
生物黑客与AI医疗领域正在发展，智能体生物学将专注于数据分析，生物智能体需掌握数据解析以进行科学推理。随着分子数据的快速增长，数据分析将成为关键，智能体将...
OpenHuman：替代OpenClaw/Hermes的高性能轻量个人智能体
OpenHuman是一款开源的本地AI代理，旨在挑战高价AI订阅模式。用户通过简单设置即可连接多种应用，保护隐私且无需云端存储。其屏幕感知和记忆树功能提升...
[开源] NeZha: 一个轻量级 AI Native IDE, 同时管理多个项目下的 AI 编程任务, 支持 Git Worktree 集成 Claude Code 和 Codex
作者开发的 AI 编程工具 NeZha 旨在简化多项目和会话管理，提高 Vibe Coding 效率。NeZha 集成了 Git、代码编辑器和终端功能，支...
创始人手册：打造 AI 原生初创公司
在2026年，AI彻底改变了初创公司的创建方式，创始人无需编程技能即可发布生产级应用。AI自动化市场调研、代码编写和业务流程，降低了创业门槛。创始人的角色...
国内访问GitHub的最优解？海康智存部署GitMirror搜索加速
熊猫开发了开源的GitHub镜像搜索站点GitMirror，旨在改善国内用户访问GitHub的体验。该项目提供强大的搜索功能、趋势榜、用户后台和AI助手，...