极道 ·

M4芯片24GB内存跑本地模型：从装不上到每秒40token的踩坑实录

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

在苹果M4芯片的24GB内存笔记本上，作者成功运行Qwen 3.5-9B模型，实现每秒40个token。尽管模型偶尔出错，但在代码修改和检查中表现良好，提升了工作效率。作者建议将本地模型视为辅助工具，适合需要灵活操作的用户。

🎯

关键要点

在苹果M4芯片24GB内存的笔记本上成功运行Qwen 3.5-9B模型，每秒处理40个token。
选择工具时，LM Studio是最友好的选择，适合手残党使用。
模型的智商与体积成正比，24GB内存限制了可用模型的选择，最终选择了压缩版的Qwen 3.5-9B。
调参数是一个复杂的过程，温度参数和重复惩罚参数需要根据具体需求进行调整。
使用Pi和OpenCode等工具来指挥模型，但配置过程可能会遇到问题。
模型在处理简单任务时表现良好，但在多步骤任务中容易出错。
本地模型适合作为辅助工具，能提高工作效率，但不能完全替代人工操作。

❓

延伸问答

在M4芯片上运行Qwen 3.5-9B模型的性能如何？

在M4芯片的24GB内存笔记本上，Qwen 3.5-9B模型能够实现每秒处理40个token。

选择本地模型工具时应该考虑哪些因素？

选择工具时应考虑操作简便性、可用模型数量和界面友好性，LM Studio被认为是最适合手残党的选择。

为什么24GB内存限制了可用模型的选择？

因为更聪明的模型通常体积较大，24GB内存无法容纳过大的模型，因此需要选择压缩版的模型。

调参数的过程中有哪些常见的挑战？

调参数时，温度参数和重复惩罚参数需要根据具体需求调整，且配置过程可能会导致模型出错。

本地模型适合哪些用户？

本地模型适合需要灵活操作的用户，能够作为辅助工具提高工作效率，但不能完全替代人工操作。

使用本地模型的优缺点是什么？

优点包括不需要联网、无额外费用和操作乐趣；缺点是模型在处理多步骤任务时容易出错。

🏷️

继续阅读

优雅的Perl特性：低优先级布尔运算符 'and' 和 'or'
这篇文章介绍了Perl语言中的低优先级布尔运算符“and”和“or”，探讨了它们的用法和特点。
CVE-2024-YIKES：Rust生态库被投毒，这个毒顺着供应链一路传染
一个Rust库遭到供应链攻击，导致四百万开发者的电脑中毒。攻击源于程序员的盗窃事件，恶意代码通过多个依赖传播，最终被一个挖矿病毒意外修复。事件揭示了Rus...
Anthropic Pre-IPO 估值 1.2 万亿美金，超过 OpenAI 成为估值最高的 AI 企业，三层误解，一个风险
Anthropic的Pre-IPO估值达到1.2万亿美元，超越OpenAI，成为最高估值的AI公司。然而，这一估值存在误导性，主要原因包括：1）这是链上P...
幂等性实战：同一个请求Key带着不同参数来了怎么办？
本文探讨了幂等性在支付接口中的重要性，强调处理重复请求时的挑战。确保每个请求的唯一性和状态管理是关键，以避免重复执行导致的错误。通过数据库行锁、命令哈希和...
从流量到Token 中国移动加速转型
TechWeb 文/卞海川众所周知，过去十多年，国内电信运营商一直在寻找“管道之外”新的增长逻辑。从最初依赖语音收入，到后来依靠4G、5G推动流量增长，再...
【Rust日报】2026-05-11 Miro PDF 0.9.0 发布：多页面支持
Miro PDF 0.9.0 发布，新增多页面显示功能和多种布局选项，改善用户体验，为后续 PDF 注释功能的开发奠定基础。findates 是一个轻量级...