Apple Machine Learning Research ·

基于Core ML的本地Llama 3.1

💡 原文英文，约5800词，阅读约需22分钟。

📝

内容提要

许多应用开发者希望在Apple硅上本地运行大型语言模型（LLMs），以提高推理效率和保护用户隐私。本文介绍了如何优化和部署Llama-3.1-8B-Instruct模型，利用Apple的Core ML框架实现约33个tokens/s的解码速度。通过引入状态化的键值缓存和4位量化，显著提升了模型性能，适用于其他基于变换器的LLMs。

🎯

关键要点

许多应用开发者希望在Apple硅上本地运行大型语言模型（LLMs），以提高推理效率和保护用户隐私。
本文介绍了如何优化和部署Llama-3.1-8B-Instruct模型，利用Apple的Core ML框架实现约33个tokens/s的解码速度。
模型必须经过仔细优化，以有效利用可用的系统资源，因为LLMs通常对内存和处理能力有很高的需求。
使用Core ML框架和优化措施，Llama-3.1-8B-Instruct模型可以在M1 Max上本地运行。
基线模型导出和性能评估是优化过程的第一步，了解模型的基本性能和改进空间。
导出PyTorch模型到Core ML需要定义一个薄包装器，并使用Core ML工具进行转换。
模型输入包括token化的文本序列和二进制注意力掩码，输出为每个token的原始未归一化概率分数。
模型执行分为“提示”和“扩展”两个阶段，使用贪婪采样策略生成下一个token。
评估模型性能的指标包括提示延迟和扩展吞吐量，后者反映了模型生成输出token的速度。
基线模型的扩展吞吐量较低，主要由于静态输入形状和缺乏键值缓存。
通过引入灵活的输入形状和状态化的键值缓存，可以显著提高模型性能。
使用融合的缩放点积注意力（SDPA）和块状int4权重量化进一步优化模型性能。
状态化的键值缓存允许模型在每次预测调用后更新缓存，减少了数据复制的开销。
块状int4量化将模型大小从16GB减少到4.2GB，解码速度提高到约33 tokens/s。
使用Core ML框架和所述优化，开发者可以在Apple硅上本地部署LLMs，利用用户硬件实现成本效益推理。

🏷️

继续阅读

您的大型语言模型问题实际上是数据问题
本文讨论了AI和大型语言模型（LLM）在处理实时结构化生产数据时的挑战。嘉宾Harsha Chintalapani指出，模式变化、不一致的定义和薄弱的治理...
构建大型语言模型（LLM）应用的10个Python库
本文介绍了10个有助于构建大型语言模型（LLM）应用的Python库，包括Transformers、LangChain、LlamaIndex、vLLM、U...
OpenClaw v2026.4.26大清洗版本：插件重写性能提升、一键加密与迁移
OpenClaw v2026.4.26版本进行了全面升级，重写的插件系统显著提升了性能，实时语音对话功能实现低延迟通话。新系统支持灵活选择本地与云端模型，...
软通华方品牌焕新，推出多款新产品
软通华方于4月22日在北京举行品牌焕新暨春季新品发布会，推出新品牌战略FunAI³和专业服务品牌FunCARE。发布会介绍了通州智能制造基地的布局及多款新...
9秒删光公司数据库，我花最贵的钱，买了一个「删库跑路」的AI
PocketOS公司因AI工具Cursor的错误，在9秒内删除了所有生产数据和备份。AI在执行操作时未验证权限，导致严重后果。创始人批评Cursor的安全...
本周份的福利：Codex再次重置当周使用配额各位可以尽情使用
Codex团队于4月28日重置了本周的使用额度，允许付费用户使用GPT-5.5模型。此次重置旨在吸引更多开发者，免费版用户额度未被重置，建议轻度用户订阅2...

基于Core ML的本地Llama 3.1

内容提要

关键要点

标签

继续阅读