💡
原文日文,约4800字,阅读约需12分钟。
📝
内容提要
近期,AI大模型具备了操作计算机的能力,微软和Anthropic等公司推出新产品。华为的LiMAC框架结合Transformer和微调VLM,能高效控制手机应用,提升响应速度和准确度,且在有限计算能力的设备上表现优异。
🎯
关键要点
- AI大模型开始具备操作计算机的能力,微软和Anthropic等公司推出新产品。
- 华为的LiMAC框架结合Transformer和微调VLM,能高效控制手机应用。
- LiMAC框架通过紧凑型模型和VLM的混合方法,显著提高响应速度和准确度。
- LiMAC使用Action Transformer处理用户目标和手机状态,预测动作类型。
- 模型输入包括用户目标、UI元素和可能的动作,通过预训练嵌入捕获用户意图。
- 动作类型预测为分类问题,使用交叉熵损失最小化预测与实际动作类型之间的差异。
- 对于需要文本的动作,LiMAC使用微调的VLM生成所需文本。
- 点击操作通过对比学习方法预测正确的UI元素,使用余弦相似度进行对齐。
- LiMAC在两个开放的手机控制数据集上表现优异,推理时间和准确度均优于基线模型。
- 当前AI操控手机的主要限制在于训练数据有限,未来研究将结合在线学习技术提升模型性能。
➡️