机器之心 ·

控制电脑手机的智能体人人都能造，微软开源OmniParser

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

微软开源的OmniParser工具能将UI截图转为结构化元素，解析能力超越GPT-4V，帮助用户完成任务如保存餐厅信息，提升智能体操作能力。该工具结合多种模型，旨在简化用户界面解析。

🎯

🔎

OmniParser的开源使得普通用户也能创建智能体，简化了计算机操作。通过解析UI截图，用户可以轻松完成复杂任务，如保存餐厅信息。这一工具的普及可能会推动更多人参与到智能体开发中，提升日常生活的便利性。

尽管OmniParser在解析能力上表现优异，但其效果依赖于对可交互元素的准确识别和理解。不同操作系统和应用的界面差异可能导致解析效果不一，因此在实际应用中，用户需注意其适用范围和局限性。

OmniParser与其他模型（如GPT-4V）结合使用时，能够显著提升智能体的操作能力。这种组合不仅提高了界面区域的动作生成精度，也为未来的智能体开发提供了新的思路，值得开发者关注。

❓

OmniParser能够将UI截图转换为结构化元素，解析屏幕上的所有元素并执行用户指定的任务。

OmniParser的解析能力超越了GPT-4V，能够更准确地理解和解析用户界面。

用户可以利用OmniParser解析UI截图，并结合其他模型创建自己的计算机操控智能体。

OmniParser的开发基于可交互区域检测数据集和图标描述数据集。

OmniParser通过微调检测和描述模型，结合其他模型使用，显著提升智能体的操作能力。

OmniParser在多个基准测试中表现优异，超越了增强版的GPT-4V，达到了最佳性能。

🏷️