The New Stack ·

Ollama利用Apple的MLX框架提升Mac上本地AI模型的运行速度

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

Ollama最新更新支持Apple的MLX框架，提升了本地运行大型语言模型的速度和内存效率，并引入了NVIDIA的NVFP4格式以优化内存使用。这一更新使开发者能够更好地在本地运行AI模型，增强对数据和执行的控制，满足对本地AI助手的需求。

🎯

关键要点

Ollama最新更新基于Apple的MLX框架，提升了本地运行大型语言模型的速度和内存效率。
更新引入了NVIDIA的NVFP4格式，优化了内存使用，支持更大的模型。
Ollama是一个可以在本地运行的LLM运行时，支持来自Meta、Google、Mistral和阿里巴巴等主要AI实验室的开放权重模型。
MLX框架的核心特性是共享内存模型，减少了延迟并提高了推理过程中的吞吐量。
更新使得本地模型在日常使用中更加响应迅速，开发者可以更好地控制系统的部署。
MLX模型支持目前仅限于Qwen3.5-35B-A3B模型，但预计将会有更多模型跟进。
OpenClaw是一个本地AI助手的例子，能够直接在用户的机器上执行任务，反映了对本地AI助手的需求。
Ollama的更新使得在Apple硬件上运行本地模型变得更快、更响应，满足了对数据和执行的控制需求。

❓

延伸问答

Ollama的最新更新有什么主要改进？

Ollama的最新更新基于Apple的MLX框架，提升了本地运行大型语言模型的速度和内存效率，并引入了NVIDIA的NVFP4格式以优化内存使用。

MLX框架对Ollama的影响是什么？

MLX框架的核心特性是共享内存模型，减少了延迟并提高了推理过程中的吞吐量，使得本地模型在日常使用中更加响应迅速。

Ollama支持哪些AI模型？

Ollama支持来自Meta、Google、Mistral和阿里巴巴等主要AI实验室的开放权重模型，目前MLX模型支持限于Qwen3.5-35B-A3B模型。

NVFP4格式的优势是什么？

NVFP4格式是一种低精度推理格式，旨在减少内存使用和带宽，同时保持模型准确性，允许在更紧凑的硬件条件下运行更大的模型。

本地AI助手OpenClaw的功能是什么？

OpenClaw是一个本地AI助手，能够直接在用户的机器上执行任务，反映了对本地AI助手的需求，能够与消息平台、文件和外部工具互动。

Ollama的更新如何影响开发者的工作？

Ollama的更新使得在Apple硬件上运行本地模型变得更快、更响应，开发者可以更好地控制系统的部署，避免将数据发送到外部服务。

🏷️

继续阅读

Google Gemma 4 QAT量化压缩解析：手机上跑本地模型
Google推出的Gemma 4 QAT模型通过量化感知训练技术，将AI模型从4GB压缩至1GB，使其能够在普通手机上本地运行。这项技术提升了隐私保护和响...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...