小红花·文摘

苹果研究人员推出Ferret-UI Lite，一种用于视觉识别和控制用户界面的设备端AI模型

InfoQ ·

Ferret-UI Lite：构建小型设备端图形用户界面代理的经验教训

Apple Machine Learning Research ·

Ferret-UI 2：跨平台用户界面理解的全面掌握

Apple Machine Learning Research ·

本研究针对高频数据流中实时学习和内存约束变化的问题，提出了Ferret框架。该框架结合细粒度的管道并行策略和迭代梯度补偿算法，有效应对并行训练中的梯度滞后问题，同时通过自动模型分区和管道规划，实现了在不同内存预算下的优化表现。研究显示，Ferret在多个基准测试中表现出显著的效率，内存开销降低最高可达3.7倍，同时在多种内存预算下均优于现有方法。

Ferret：一种在不同内存约束下高效的在线持续学习框架

BriefGPT - AI 论文速递 ·

本文讨论了联邦学习中微调语言模型的挑战，介绍了FS-LLM软件包及其高效算法，旨在降低通信和计算成本。研究提出了FedBPT和FedMeZO等新方法，优化隐私保护和资源使用，提升模型训练效率和准确性。实验证明这些方法在联邦学习中表现优越，具有重要的隐私保护和效率提升潜力。

Ferret：大规模联邦全参数调优大型语言模型

BriefGPT - AI 论文速递 ·

Ferret-UI：基于多模态大语言模型的移动用户界面理解

Apple Machine Learning Research ·

本文介绍了一种名为MART的自动多轮红队方法，显著提升大型语言模型的安全性。该方法通过基于梯度的红队技术（GBRT）生成多样化提示，以发现和减轻模型的安全风险。同时，引入HarmBench评估框架，比较多种红队测试方法，增强模型的鲁棒性。此外，提出了结合红队和蓝队技术的新流程，以主动识别和应对安全漏洞。

Ferret：基于奖励评分技术的更快更有效的自动红队测试

BriefGPT - AI 论文速递 ·

性能与效率比拼：开源大语言模型竞逐 | 开源专题 No.76

开源服务指南 ·

Ferret是一种新型多模态大型语言模型，能够理解图像中的空间引用并进行准确描述。该模型在移动用户界面理解、视觉语言解析和对象检测等任务中表现出色。研究还提出了基于Transformer的视觉定位方法，显著提高了视觉理解能力，并展示了在细粒度视觉分类中的潜力。

Ferret-v2：针对较大语言模型进行指代和依存关系的改进基准

BriefGPT - AI 论文速递 ·

本文介绍了Ferret，一个多模态大型语言模型，能够理解图像中的空间引用并执行用户界面（UI）任务。通过强化学习，Ferret在UI自动化中表现出色。此外，研究提出了UIBert模型，利用未标记的UI数据进行预训练，提升了任务的准确率。针对多模态交互中的语言歧义，提出了MUG任务，并构建了实验数据集。Auto-UI作为新解决方案，直接与界面交互，实现高准确率的动作预测，提升用户体验。

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

BriefGPT - AI 论文速递 ·

苹果与哥伦比亚大学合作推出开源AI模型Ferret，仅限于研究使用。苹果发布两篇新研究论文介绍3D头像和高效语言模型推理技术，有望在iPhone和iPad上运行更复杂、性能更好的AI模型。苹果进入开源AI领域，推动AI技术发展。苹果致力于本地运行的AI模型，提高用户使用效率。

苹果在10月份低调发布开源多模态AI模型Ferret 这让AI社区感到非常惊讶

蓝点网 ·

苹果发布了开源多模式法学硕士Ferret，进军AI领域。发布了3D头像和高效语言模型推理的新技术，提升视觉体验和消费设备上的人工智能系统。

Ferret：苹果多模式大型语言模型

极道 ·

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法，并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能，对于野外3D视觉定位的研究具有重要意义，并有着提升自动驾驶和服务机器人发展的巨大潜力。

Ferret: 任意粒度引用和定位任何内容

BriefGPT - AI 论文速递 ·