让AI像人类一样操作手机,华为也做出来了

让AI像人类一样操作手机,华为也做出来了

💡 原文日文,约4800字,阅读约需12分钟。
📝

内容提要

近期,AI大模型具备了操作计算机的能力,微软和Anthropic等公司推出新产品。华为的LiMAC框架结合Transformer和微调VLM,能高效控制手机应用,提升响应速度和准确度,且在有限计算能力的设备上表现优异。

🎯

关键要点

  • AI大模型开始具备操作计算机的能力,微软和Anthropic等公司推出新产品。
  • 华为的LiMAC框架结合Transformer和微调VLM,能高效控制手机应用。
  • LiMAC框架通过紧凑型模型和VLM的混合方法,显著提高响应速度和准确度。
  • LiMAC使用Action Transformer处理用户目标和手机状态,预测动作类型。
  • 模型输入包括用户目标、UI元素和可能的动作,通过预训练嵌入捕获用户意图。
  • 动作类型预测为分类问题,使用交叉熵损失最小化预测与实际动作类型之间的差异。
  • 对于需要文本的动作,LiMAC使用微调的VLM生成所需文本。
  • 点击操作通过对比学习方法预测正确的UI元素,使用余弦相似度进行对齐。
  • LiMAC在两个开放的手机控制数据集上表现优异,推理时间和准确度均优于基线模型。
  • 当前AI操控手机的主要限制在于训练数据有限,未来研究将结合在线学习技术提升模型性能。
➡️

继续阅读