苹果的Ferret-UI Lite是一种优化的3B参数模型,旨在理解屏幕图像和UI元素,并与应用直接互动。研究者开发了小型设备端GUI代理,提升了复杂布局中的准确性,表现优于大型模型。尽管在长任务上仍面临挑战,但Ferret-UI Lite可作为设备端智能代理,增强隐私保护。
Ferret-UI Lite是一个适用于移动、网页和桌面的紧凑型端到端图形用户界面(GUI)代理。通过优化小模型的技术,该代理在多个基准测试中表现优异,GUI定位得分为91.6%、53.3%和61.2%,而在GUI导航方面的成功率为28.0%和19.8%。本文分享了在紧凑型设备上开发GUI代理的方法和经验。
Ferret-UI 2是一种多模态大型语言模型,专注于跨平台用户界面理解,具备高分辨率感知和任务训练数据生成能力。实验表明,其在复杂用户交互中表现优异,具备强大的跨平台迁移能力。
本研究针对高频数据流中实时学习和内存约束变化的问题,提出了Ferret框架。该框架结合细粒度的管道并行策略和迭代梯度补偿算法,有效应对并行训练中的梯度滞后问题,同时通过自动模型分区和管道规划,实现了在不同内存预算下的优化表现。研究显示,Ferret在多个基准测试中表现出显著的效率,内存开销降低最高可达3.7倍,同时在多种内存预算下均优于现有方法。
本研究提出了Ferret-UI 2多模态大型语言模型,解决了用户界面理解中的平台多样性和数据限制问题,显著提升了用户交互的复杂性和跨平台适应能力,实验结果优于前一版本。
本研究提出了一种名为“Ferret”的新方法,用于在联邦环境中调整大型语言模型。该方法通过减少通信开销,保持模型的高精度和快速收敛,提高了现有联邦调优方法的可扩展性和计算效率。
Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with...
大型语言模型(LLMs)的安全管理引发关注。自动红队测试是替代方案,提供一致和可扩展的评估方法。DiveR-CT通过放宽限制,增强多样性,表现优于基准。同时,提高蓝队模型的适应性和攻击成功率的动态控制,减少对奖励过度优化的敏感性。
VisualBERT是一个简单灵活的框架,由一系列Transformer层组成,可以对文本和图像区域进行自我注意力对齐。实验表明,VisualBERT在视觉语言任务上的表现优于或与最先进的模型相当,同时具有简单性。它可以将语言元素与图像区域相关联,并关注句法关系。
自主用户界面 (UI) 代理 Auto-UI 是一个多模态的解决方案,可以直接与界面交互,无需环境解析或依赖应用程序相关的 API。通过链式动作技术,帮助代理决定执行什么动作。在新的设备控制基准 AITW 上评估,实验结果显示 Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。
苹果与哥伦比亚大学合作推出开源AI模型Ferret,仅限于研究使用。苹果发布两篇新研究论文介绍3D头像和高效语言模型推理技术,有望在iPhone和iPad上运行更复杂、性能更好的AI模型。苹果进入开源AI领域,推动AI技术发展。苹果致力于本地运行的AI模型,提高用户使用效率。
苹果发布了开源多模式法学硕士Ferret,进军AI领域。发布了3D头像和高效语言模型推理的新技术,提升视觉体验和消费设备上的人工智能系统。
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的3D视觉定位任务的方法,并提出了两个新的数据集STRefer和LifeRefer。该方法实现了最先进的性能,对于野外3D视觉定位的研究具有重要意义,并有着提升自动驾驶和服务机器人发展的巨大潜力。
完成下面两步后,将自动完成登录并继续当前操作。