文章讨论了MAI-UI智能体框架,该框架以图形界面为中心,支持从小型到超大规模模型(2B至235B)的交互体验,旨在将基础模型能力应用于真实世界任务,提供设备与云的协同、事件感知和多模态输入支持。
阿里通义实验室推出开源项目MAI-UI,旨在实现AI对手机的直接操控。该项目在GUI定位和任务执行方面表现出色,能够识别屏幕内容并完成复杂操作。MAI-UI支持多种参数变体,具备主动询问用户信息和与外部应用集成的能力,适应动态环境。目前已开源2B和8B版本,用户可通过GitHub获取体验。
完成下面两步后,将自动完成登录并继续当前操作。