“豆包手机”助手基于字节的UI-TARS模型,能够自动执行复杂任务。核心技术已开源并经过多次迭代,提升了性能和交互能力。尽管存在权限争议,官方强调用户需主动授权。用户体验反馈积极,展现出手机智能化的潜力。
OpenAI发布了Computer Use智能体Operator,标志着智能体时代的到来。字节跳动的UI-TARS已开源,具备高度智能和自主思考能力,支持多平台操作,并在任务成功率上超越同类产品,推动智能体技术发展。
字节跳动发布的UI-TARS是基于Qwen2-VL微调的自动化GUI交互智能体,经过三阶段训练,支持中英文图片和指令。该模型训练数据量大,涵盖多种感知任务,提升了推理能力和动态适应性。模型已开源,但数据和训练代码未公开。
该研究提出了一种新型图形用户界面代理模型UI-TARS,增强了感知能力和统一行动建模,表现优异,减少了对人为干预的依赖。
完成下面两步后,将自动完成登录并继续当前操作。