Ferret-UI是一种新型多模态大语言模型,旨在增强对移动用户界面的理解。它具备引用、定位和推理能力,能够处理不同分辨率的UI屏幕。在图标识别和文本查找等基本任务上,Ferret-UI的表现优于大多数开源模型和GPT-4V。
完成下面两步后,将自动完成登录并继续当前操作。