‌阿里通义实验室发布 MAI-UI：一套能“看懂”手机屏幕、帮你自动操作 App 的 AI 智能体，性能超越谷歌 Gemini、Seed与 UI-Tars-2

dotNET跨平台 ·

‌阿里通义实验室发布 MAI-UI：一套能“看懂”手机屏幕、帮你自动操作 App 的 AI 智能体，性能超越谷歌 Gemini、Seed与 UI-Tars-2

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

阿里通义实验室推出开源项目MAI-UI，旨在实现AI对手机的直接操控。该项目在GUI定位和任务执行方面表现出色，能够识别屏幕内容并完成复杂操作。MAI-UI支持多种参数变体，具备主动询问用户信息和与外部应用集成的能力，适应动态环境。目前已开源2B和8B版本，用户可通过GitHub获取体验。

🎯

关键要点

阿里通义实验室推出开源项目MAI-UI，旨在实现AI对手机的直接操控。
MAI-UI在GUI定位和任务执行方面表现出色，超越了Gemini-3-Pro和Seed1.8。
项目包含多种参数变体，如2B、8B、32B和235B-A22B。
MAI-UI具备高水平的屏幕识别能力和复杂任务执行能力。
在AndroidWorld基准测试中，MAI-UI创造了76.7%的成功率记录。
MAI-UI设计了原生人机互动机制，能主动询问用户信息。
通过MCP工具，MAI-UI能够与外部应用和真实世界数据深度集成。
独创的设备-云混合协作架构，智能决定任务处理方式。
MAI-UI通过在线强化学习框架不断进化，适应动态环境。
目前已开源2B和8B版本，用户可通过GitHub获取体验。

❓

延伸问答

MAI-UI的主要功能是什么？

MAI-UI能够识别手机屏幕内容并完成复杂操作，支持主动询问用户信息和与外部应用集成。

MAI-UI与其他AI模型相比有什么优势？

MAI-UI在GUI定位和任务执行方面表现优越，成功率超过Gemini-3-Pro和Seed1.8。

如何获取和使用MAI-UI？

用户可以通过GitHub克隆MAI-UI的2B和8B版本，并按照说明启动API服务。

MAI-UI如何处理复杂任务？

MAI-UI通过原生人机互动机制和MCP工具，能够主动询问用户并与外部应用深度集成。

MAI-UI的成功率如何？

在AndroidWorld基准测试中，MAI-UI创造了76.7%的成功率记录。

MAI-UI的设计理念是什么？

MAI-UI旨在打破AI助手的局限，使其能够直接操控手机并适应动态环境。

🏷️

继续阅读

开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
儿童手机
文章讲述了作者为二年级女儿坡坡购买手机的经历。由于坡坡的同学们已有手机，作者决定为她购买一部儿童手机以确保安全。经过一些波折，最终成功买到了坡坡心仪的紫色...
读：AI 会杀死开源社区吗？从 Emacs 的故事说起
文章讨论了AI对开源社区，特别是Emacs社区的影响。Matei Candea和Sacha Chua探讨了AI如何改变学习和参与的方式。虽然AI为新手提供...
Harness Engineering：把 AI 真正接进工程流程 - SharpCJ
Harness Engineering 旨在将 AI 纳入工程流程，通过明确任务边界、上下文和验证机制，提升 AI 的执行稳定性。它强调 AI 在清晰框架...
为什么程序员反而是受 AI 冲击最大的岗位
AI对程序员职业的冲击主要源于工作高度结构化和自动化能力。代码生成和错误排查等任务易被AI替代，但复杂决策仍需人类参与。未来程序员应专注于问题定义、系统拆...
教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...