苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。

🎯

关键要点

  • 苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。

  • 研究者开发了小型设备端GUI代理,能够直接与图形用户界面互动,提升复杂布局中的准确性。

  • Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。

  • 在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。

  • 训练过程中采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。

  • 研究者认为GUI定位和导航数据可以相辅相成,合成数据的整理显著提升了两项任务的表现。

  • 尽管链式思维推理和视觉工具带来了改进,但其效果有限,小模型在长任务和多步骤任务上仍面临挑战。

  • Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。

延伸问答

Ferret-UI Lite的主要功能是什么?

Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。

Ferret-UI Lite在GUI定位任务中的表现如何?

Ferret-UI Lite在GUI定位任务中表现优于大型模型,分别在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G上取得91.6%、53.3%和61.2%的成功率。

Ferret-UI Lite是如何训练的?

Ferret-UI Lite的训练采用了两阶段管道,第一阶段使用监督微调,第二阶段应用可验证奖励的强化学习。

Ferret-UI Lite如何提升复杂布局中的准确性?

Ferret-UI Lite使用屏幕图像裁剪和链式思维提示来提高对复杂布局中小UI元素的理解准确性。

Ferret-UI Lite在GUI导航任务中的成功率是多少?

在GUI导航任务中,Ferret-UI Lite在AndroidWorld和OSWorld上分别取得28.0%和19.8%的成功率。

Ferret-UI Lite对隐私保护有什么贡献?

Ferret-UI Lite可以作为设备端的智能代理,帮助苹果减少对Google Cloud的依赖,同时提供隐私保护。

➡️

继续阅读