💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。

🎯

关键要点

  • 苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。
  • 研究者开发了小型设备端GUI代理,能够直接与图形用户界面互动,提升复杂布局中的准确性。
  • Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。
  • 在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。
  • 训练过程中采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。
  • 研究者认为GUI定位和导航数据可以相辅相成,合成数据的整理显著提升了两项任务的表现。
  • 尽管链式思维推理和视觉工具带来了改进,但其效果有限,小模型在长任务和多步骤任务上仍面临挑战。
  • Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。
➡️

继续阅读