小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。

苹果研究人员推出Ferret-UI Lite,一种用于视觉识别和控制用户界面的设备端AI模型

InfoQ
InfoQ · 2026-02-24T19:00:00Z
Ferret-UI Lite:构建小型设备端图形用户界面代理的经验教训

Ferret-UI Lite是一个适用于移动、网页和桌面的紧凑型端到端图形用户界面(GUI)代理。通过优化小模型的技术,该代理在多个基准测试中表现优异,GUI定位得分为91.6%、53.3%和61.2%,而在GUI导航方面的成功率为28.0%和19.8%。本文分享了在紧凑型设备上开发GUI代理的方法和经验。

Ferret-UI Lite:构建小型设备端图形用户界面代理的经验教训

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-17T00:00:00Z
Ferret-UI 2:跨平台用户界面理解的全面掌握

Ferret-UI 2是一种多模态大型语言模型,专注于跨平台用户界面理解,具备高分辨率感知和任务训练数据生成能力。实验表明,其在复杂用户交互中表现优异,具备强大的跨平台迁移能力。

Ferret-UI 2:跨平台用户界面理解的全面掌握

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-10T00:00:00Z

本研究针对高频数据流中实时学习和内存约束变化的问题,提出了Ferret框架。该框架结合细粒度的管道并行策略和迭代梯度补偿算法,有效应对并行训练中的梯度滞后问题,同时通过自动模型分区和管道规划,实现了在不同内存预算下的优化表现。研究显示,Ferret在多个基准测试中表现出显著的效率,内存开销降低最高可达3.7倍,同时在多种内存预算下均优于现有方法。

Ferret:一种在不同内存约束下高效的在线持续学习框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-15T00:00:00Z

本文讨论了联邦学习中微调语言模型的挑战,介绍了FS-LLM软件包及其高效算法,旨在降低通信和计算成本。研究提出了FedBPT和FedMeZO等新方法,优化隐私保护和资源使用,提升模型训练效率和准确性。实验证明这些方法在联邦学习中表现优越,具有重要的隐私保护和效率提升潜力。

Ferret:大规模联邦全参数调优大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
Ferret-UI:基于多模态大语言模型的移动用户界面理解

Ferret-UI是一种新型多模态大语言模型,旨在增强对移动用户界面的理解。它具备引用、定位和推理能力,能够处理不同分辨率的UI屏幕。在图标识别和文本查找等基本任务上,Ferret-UI的表现优于大多数开源模型和GPT-4V。

Ferret-UI:基于多模态大语言模型的移动用户界面理解

Apple Machine Learning Research
Apple Machine Learning Research · 2024-09-10T00:00:00Z

本文介绍了一种名为MART的自动多轮红队方法,显著提升大型语言模型的安全性。该方法通过基于梯度的红队技术(GBRT)生成多样化提示,以发现和减轻模型的安全风险。同时,引入HarmBench评估框架,比较多种红队测试方法,增强模型的鲁棒性。此外,提出了结合红队和蓝队技术的新流程,以主动识别和应对安全漏洞。

Ferret:基于奖励评分技术的更快更有效的自动红队测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z
性能与效率比拼:开源大语言模型竞逐 | 开源专题 No.76

本文介绍了多款开源大语言模型及其性能与效率,包括Ferret、Magicoder、Yi系列、ChatGLM3和Qwen。Ferret具备细粒度指称与定位能力,Magicoder通过开源代码生成高质量指令数据,Yi系列支持多种任务,ChatGLM3提供强大对话功能,Qwen在多语种数据上表现优异,适用于聊天和信息提取等任务。

性能与效率比拼:开源大语言模型竞逐 | 开源专题 No.76

开源服务指南
开源服务指南 · 2024-05-14T23:35:29Z

Ferret是一种新型多模态大型语言模型,能够理解图像中的空间引用并进行准确描述。该模型在移动用户界面理解、视觉语言解析和对象检测等任务中表现出色。研究还提出了基于Transformer的视觉定位方法,显著提高了视觉理解能力,并展示了在细粒度视觉分类中的潜力。

Ferret-v2:针对较大语言模型进行指代和依存关系的改进基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

本文介绍了Ferret,一个多模态大型语言模型,能够理解图像中的空间引用并执行用户界面(UI)任务。通过强化学习,Ferret在UI自动化中表现出色。此外,研究提出了UIBert模型,利用未标记的UI数据进行预训练,提升了任务的准确率。针对多模态交互中的语言歧义,提出了MUG任务,并构建了实验数据集。Auto-UI作为新解决方案,直接与界面交互,实现高准确率的动作预测,提升用户体验。

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

苹果与哥伦比亚大学合作推出开源AI模型Ferret,仅限于研究使用。苹果发布两篇新研究论文介绍3D头像和高效语言模型推理技术,有望在iPhone和iPad上运行更复杂、性能更好的AI模型。苹果进入开源AI领域,推动AI技术发展。苹果致力于本地运行的AI模型,提高用户使用效率。

苹果在10月份低调发布开源多模态AI模型Ferret 这让AI社区感到非常惊讶

蓝点网
蓝点网 · 2023-12-26T03:23:07Z

苹果发布了开源多模式法学硕士Ferret,进军AI领域。发布了3D头像和高效语言模型推理的新技术,提升视觉体验和消费设备上的人工智能系统。

Ferret:苹果多模式大型语言模型

极道
极道 · 2023-12-23T22:47:00Z

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。

Ferret: 任意粒度引用和定位任何内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码