小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。

苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

InfoQ
InfoQ · 2026-02-24T19:00:00Z
Ferret-UI Lite:构建小型设备端图形用户界面代理的经验教训

Ferret-UI Lite是一个适用于移动、网页和桌面的紧凑型端到端图形用户界面(GUI)代理。通过优化小模型的技术,该代理在多个基准测试中表现优异,GUI定位得分为91.6%、53.3%和61.2%,而在GUI导航方面的成功率为28.0%和19.8%。本文分享了在紧凑型设备上开发GUI代理的方法和经验。

Ferret-UI Lite:构建小型设备端图形用户界面代理的经验教训

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-17T00:00:00Z
Ferret-UI 2:跨平台用户界面理解的全面掌握

Ferret-UI 2是一种多模态大型语言模型,专注于跨平台用户界面理解,具备高分辨率感知和任务训练数据生成能力。实验表明,其在复杂用户交互中表现优异,具备强大的跨平台迁移能力。

Ferret-UI 2:跨平台用户界面理解的全面掌握

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-10T00:00:00Z

本研究针对高频数据流中实时学习和内存约束变化的问题,提出了Ferret框架。该框架结合细粒度的管道并行策略和迭代梯度补偿算法,有效应对并行训练中的梯度滞后问题,同时通过自动模型分区和管道规划,实现了在不同内存预算下的优化表现。研究显示,Ferret在多个基准测试中表现出显著的效率,内存开销降低最高可达3.7倍,同时在多种内存预算下均优于现有方法。

Ferret:一种在不同内存约束下高效的在线持续学习框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-15T00:00:00Z

本研究提出了Ferret-UI 2多模态大型语言模型,解决了用户界面理解中的平台多样性和数据限制问题,显著提升了用户交互的复杂性和跨平台适应能力,实验结果优于前一版本。

Ferret-UI 2:掌握跨平台的通用用户界面理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本研究提出了一种名为“Ferret”的新方法,用于在联邦环境中调整大型语言模型。该方法通过减少通信开销,保持模型的高精度和快速收敛,提高了现有联邦调优方法的可扩展性和计算效率。

Ferret:大规模联邦全参数调优大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with...

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Apple Machine Learning Research
Apple Machine Learning Research · 2024-09-10T00:00:00Z

大型语言模型(LLMs)的安全管理引发关注。自动红队测试是替代方案,提供一致和可扩展的评估方法。DiveR-CT通过放宽限制,增强多样性,表现优于基准。同时,提高蓝队模型的适应性和攻击成功率的动态控制,减少对奖励过度优化的敏感性。

Ferret:基于奖励评分技术的更快更有效的自动红队测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

VisualBERT是一个简单灵活的框架,由一系列Transformer层组成,可以对文本和图像区域进行自我注意力对齐。实验表明,VisualBERT在视觉语言任务上的表现优于或与最先进的模型相当,同时具有简单性。它可以将语言元素与图像区域相关联,并关注句法关系。

Ferret-v2:针对较大语言模型进行指代和依存关系的改进基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

自主用户界面 (UI) 代理 Auto-UI 是一个多模态的解决方案,可以直接与界面交互,无需环境解析或依赖应用程序相关的 API。通过链式动作技术,帮助代理决定执行什么动作。在新的设备控制基准 AITW 上评估,实验结果显示 Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

苹果与哥伦比亚大学合作推出开源AI模型Ferret,仅限于研究使用。苹果发布两篇新研究论文介绍3D头像和高效语言模型推理技术,有望在iPhone和iPad上运行更复杂、性能更好的AI模型。苹果进入开源AI领域,推动AI技术发展。苹果致力于本地运行的AI模型,提高用户使用效率。

苹果在10月份低调发布开源多模态AI模型Ferret 这让AI社区感到非常惊讶

蓝点网
蓝点网 · 2023-12-26T03:23:07Z

苹果发布了开源多模式法学硕士Ferret,进军AI领域。发布了3D头像和高效语言模型推理的新技术,提升视觉体验和消费设备上的人工智能系统。

Ferret:苹果多模式大型语言模型

极道
极道 · 2023-12-23T22:47:00Z

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。

Ferret: 任意粒度引用和定位任何内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码