💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。
🎯
关键要点
- 苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。
- 研究者开发了小型设备端GUI代理,能够直接与图形用户界面互动,提升复杂布局中的准确性。
- Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。
- 在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。
- 训练过程中采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。
- 研究者认为GUI定位和导航数据可以相辅相成,合成数据的整理显著提升了两项任务的表现。
- 尽管链式思维推理和视觉工具带来了改进,但其效果有限,小模型在长任务和多步骤任务上仍面临挑战。
- Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。
➡️