机器之心 ·

Huawei has also developed AI that can operate smartphones like humans.

💡 原文日文，约4800字，阅读约需12分钟。

📝

内容提要

近期，AI大模型具备了操作计算机的能力，微软和Anthropic等公司推出新产品。华为的LiMAC框架结合Transformer和微调VLM，能高效控制手机应用，提升响应速度和准确度，且在有限计算能力的设备上表现优异。

🎯

关键要点

AI大模型开始具备操作计算机的能力，微软和Anthropic等公司推出新产品。
华为的LiMAC框架结合Transformer和微调VLM，能高效控制手机应用。
LiMAC框架通过紧凑型模型和VLM的混合方法，显著提高响应速度和准确度。
LiMAC使用Action Transformer处理用户目标和手机状态，预测动作类型。
模型输入包括用户目标、UI元素和可能的动作，通过预训练嵌入捕获用户意图。
动作类型预测为分类问题，使用交叉熵损失最小化预测与实际动作类型之间的差异。
对于需要文本的动作，LiMAC使用微调的VLM生成所需文本。
点击操作通过对比学习方法预测正确的UI元素，使用余弦相似度进行对齐。
LiMAC在两个开放的手机控制数据集上表现优异，推理时间和准确度均优于基线模型。
当前AI操控手机的主要限制在于训练数据有限，未来研究将结合在线学习技术提升模型性能。

❓

延伸问答

华为的LiMAC框架有什么特点？

LiMAC框架结合了Transformer和微调的VLM，能够高效控制手机应用，显著提高响应速度和准确度。

LiMAC如何处理用户的目标和手机状态？

LiMAC使用Action Transformer处理用户目标和手机状态，以预测动作类型。

LiMAC在手机控制任务中的表现如何？

LiMAC在两个开放的手机控制数据集上表现优异，推理时间和准确度均优于基线模型。

LiMAC框架是如何提高响应速度的？

LiMAC通过紧凑型模型和VLM的混合方法，减少计算需求，从而提高响应速度，速度可提高30倍。

目前AI操控手机的主要限制是什么？

当前AI操控手机的主要限制在于训练数据有限，影响模型在复杂任务上的能力。

LiMAC如何处理需要文本的动作？

对于需要文本的动作，LiMAC使用微调的VLM生成所需文本，以确保动作成功完成。

🏷️

标签

AI大模型 LiMAC框架 Transformer ai 华为手机应用

➡️

继续阅读

华为 AI 眼镜体验：好戴爱戴，再谈 AI
华为AI眼镜设计出色，外观接近普通眼镜，轻便适合长时间佩戴。拍照功能优秀，但音质稍显不足，尤其低频表现。AI助手小艺功能丰富，提供实用信息，但仍有局限。整...
赛博聊斋：当毫无预算上限的 AI 遇上闲得蛋疼的网络巨魔
2026年，AI代理JertLinc接入去中心化网络DN42，申请高配置AWS实例进行网络扫描，导致账单高达6531.30美元。社区成员以“焦油坑”战术回...
30天消耗60万亿Tokens！Meta发布备忘录宣布限制员工的AI用量以控制成本
Meta 正在限制员工的人工智能使用量，因最近 30 天内消耗高达 60 万亿 Tokens，预计将导致数十亿美元的支出。公司采取 Tokens 最小化策...
2026智源大会开幕：推动AI、物理世界和生命科学“三体互动”
2026年北京智源大会聚焦AI前沿技术，汇聚全球顶尖专家与青年科学家，探讨智能体与世界模型的发展。智源研究院发布悟界系列大模型，推动AI从数字世界向物理世...
2026 年，AI 长出了四个轮子，驶向物理世界
近年来，人工智能正在向物理世界迁移。赛豆科技推出的AIVA品牌强调AI在汽车设计中的重要性，改变了传统的汽车制造模式。AIVA通过深度学习用户需求，提升驾...
具透 | 除了 AI，iOS 27 首个开发者测试版中你不能错过的新功能
WWDC 2026 发布了 iOS 27，重点优化系统体验。新版本引入透明度调节、图标优化和流畅度提升，App 启动速度提高30%。Safari 增加页面...