内容提要
苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。
关键要点
-
苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。
-
研究者开发了小型设备端GUI代理,能够直接与图形用户界面互动,提升复杂布局中的准确性。
-
Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。
-
在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。
-
训练过程中采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。
-
研究者认为GUI定位和导航数据可以相辅相成,合成数据的整理显著提升了两项任务的表现。
-
尽管链式思维推理和视觉工具带来了改进,但其效果有限,小模型在长任务和多步骤任务上仍面临挑战。
-
Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。
延伸问答
Ferret-UI Lite的主要功能是什么?
Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。
Ferret-UI Lite在GUI定位任务中的表现如何?
Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。
Ferret-UI Lite是如何训练的?
Ferret-UI Lite的训练采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。
Ferret-UI Lite如何提升复杂布局中的准确性?
Ferret-UI Lite使用屏幕图像裁剪和链式思维提示来提高对复杂布局中小UI元素的理解准确性。
Ferret-UI Lite在GUI导航任务中的成功率是多少?
在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。
Ferret-UI Lite对隐私保护有什么贡献?
Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。