微软开源的OmniParser工具能将UI截图转为结构化元素,解析能力超越GPT-4V,帮助用户完成任务如保存餐厅信息,提升智能体操作能力。该工具结合多种模型,旨在简化用户界面解析。
完成下面两步后,将自动完成登录并继续当前操作。