OneV's Den ·

Foundation Models：苹果设备端模型的边界探索

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

苹果在WWDC 2025上推出了Foundation Models框架，支持开发者使用离线模型进行AI任务。测试显示框架稳定，但存在内存消耗、上下文窗口限制（4096 tokens）和并发性能下降等问题。开发者应围绕这些限制设计应用，并优先考虑Tool Calling功能。总体而言，Foundation Models为iOS应用提供了强大的AI能力，但需理解其局限性。

🎯

关键要点

苹果在WWDC 2025上推出Foundation Models框架，支持离线模型进行AI任务。
框架的稳定性良好，但存在内存消耗、上下文窗口限制和并发性能下降等问题。
总运行时内存约为1.0-1.5GB，包括模型权重、KV cache和框架开销。
上下文窗口限制为4096 tokens，实际部署时不支持训练时的65K tokens。
多session并发会严重影响性能，建议使用队列管理请求。
每个@Generable属性会增加约30 tokens的开销，需注意复杂数据结构的影响。
Tool Calling功能是Foundation Models的重要特性，允许通过自然语言控制应用功能。
温度参数对模型的创造性输出影响较小，适当调高温度可获得更好的结果。
苹果的安全防护严格，违规条目会被删除，调试时需保留对话日志。
开发者应围绕4096 token限制设计应用流程，优先考虑Tool Calling功能。
Foundation Models为iOS应用提供强大的AI能力，但需理解其局限性和边界。

❓

延伸问答

Foundation Models框架的主要功能是什么？

Foundation Models框架支持开发者使用离线模型进行AI任务，提供强大的AI能力。

使用Foundation Models时需要注意哪些内存限制？

总运行时内存约为1.0-1.5GB，需考虑模型权重、KV cache和框架开销。

Foundation Models的上下文窗口限制是多少？

上下文窗口限制为4096 tokens，实际部署时不支持训练时的65K tokens。

多session并发会对性能产生什么影响？

多session并发会严重影响性能，性能从10-30 tokens/s降至约1 token/s。

Tool Calling功能有什么重要性？

Tool Calling功能允许通过自然语言控制应用功能，是Foundation Models的重要特性。

开发者在使用Foundation Models时有哪些建议？

开发者应围绕4096 token限制设计应用流程，优先考虑Tool Calling，并准备上下文管理策略。

🏷️

继续阅读

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
早期基准测试数据显示英伟达RTX SPARK N1X芯片性能相当于苹果M3 MAX
英伟达RTX SPARK N1X芯片的早期基准测试显示，其性能与苹果M3 MAX相当。N1X拥有20个核心，而M3 MAX则为14个核心。尽管M3 MAX...
金融机构为何趋向于交易基础模型以构建自身智能
金融机构正在采用交易基础模型，构建统一的智能系统，以克服现有模型的孤立性。通过大型AI系统，机构能够更好地理解消费者行为，提升反欺诈和信用评分等领域的表现...
苹果发布iOS 26.5.1版修复iPhone 17系列和iPhone Air无法有线充电的问题
苹果发布了iOS 26.5.1正式版，主要修复了iPhone Air和iPhone 17系列的充电问题。部分用户在电量低时无法通过数据线充电，建议相关用户...
GPT Realtime 2.0实时语音模型17个创业方向
GPT Realtime 2.0模型实现了边听边思考的实时智能应用，提供了17个创业机会，如实时合同谈判助手、语音控制交易终端和多语种活动主持人。这些应用...
内网升级vLLM及模型教程
本文介绍了如何在内网升级vLLM及AI模型。建议定期更新vLLM以获取新特性，通过简单命令安装新版vLLM，并使用huggingface-cli下载新模型...