量子位 ·

智谱新模型也用DeepSeek的MLA，苹果M5就能跑

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

智谱AI推出新模型GLM-4.7-Flash，参数300亿，激活仅30亿，适用于本地编程和智能助手。该模型在代码修复测试中表现优异，支持200K上下文窗口，兼容多平台，并可在苹果M5上运行。API免费开放，具备创意写作和翻译功能。

🎯

关键要点

智谱AI推出新模型GLM-4.7-Flash，参数300亿，激活仅30亿。
该模型适用于本地编程和智能助手，API免费开放调用。
在代码修复测试中，GLM-4.7-Flash表现优异，得分59.2。
模型支持200K上下文窗口，兼容多平台，可在苹果M5上运行。
GLM-4.7-Flash采用混合专家架构，实际推理时仅激活约30亿参数。
首次采用MLA架构，提升了模型的效率。
支持本地部署，开发者在苹果笔记本上测试速度达到43 token/s。
基础版GLM-4.7-Flash完全免费，高速版价格低廉。
在上下文长度支持和输出token价格上具有优势，但延迟和吞吐量需优化。

❓

延伸问答

GLM-4.7-Flash模型的主要特点是什么？

GLM-4.7-Flash模型具有300亿总参数，实际推理时仅激活30亿参数，适用于本地编程和智能助手，支持200K上下文窗口。

GLM-4.7-Flash在代码修复测试中的表现如何？

在SWE-bench Verified代码修复测试中，GLM-4.7-Flash获得了59.2分，表现优异。

GLM-4.7-Flash支持哪些应用场景？

该模型适用于本地编程、智能助手、创意写作、翻译和长上下文任务等场景。

GLM-4.7-Flash的API使用情况如何？

GLM-4.7-Flash的API完全免费开放调用，基础版限1个并发，高速版价格低廉。

GLM-4.7-Flash与前代模型相比有什么改进？

GLM-4.7-Flash在效率上进行了优化，采用了混合专家架构，实际推理时大幅降低计算开销。

GLM-4.7-Flash的运行速度如何？

在苹果M5芯片的笔记本上，GLM-4.7-Flash的运行速度可达到43 token/s。

🏷️

继续阅读

把 DeepSeek、Kimi、智谱和 MiniMax 拉进群聊
Kimi推出了K2.6开源模型，提升了代码能力和指令遵循。新功能Kimi Claw支持多AI协作，允许不同模型在同一对话中共享信息，提升工作效率。用户可创...
【开源许可与版权工程】文档、数据、模型的许可：CC、ODbL、OpenRAIL、LLaMA 协议
本文探讨了开源许可证在非代码资产（如文档、数据和模型权重）中的应用，尤其是在大规模语言模型和生成式AI背景下。传统软件许可证（如MIT、Apache）已无...
在库克时代后，Mac掌握在苹果的新掌门人手中
苹果在库克时代后迎来新CEO约翰·特纳斯，预计将继续专注于Mac的芯片性能。新任硬件工程主管约翰尼·斯鲁吉将推动苹果芯片的发展，确保Mac的卓越性能和电池...
苹果电视在七月迎来繁忙的科幻夏季，《Silo》第三季即将上线
苹果电视的科幻剧《Silo》第三季将于7月3日回归，共10集，讲述地下城市居民的故事。新季将揭示早期的起源故事，主角朱丽叶在经历清洗后失忆，面临新威胁。该...
苹果将再次迎来一位产品专家担任首席执行官
约翰·特纳斯将接任苹果公司首席执行官，接替蒂姆·库克。他在苹果工作了25年，曾担任硬件工程高级副总裁，参与了多个重要产品的发布。特纳斯的领导下，苹果将推出...
具身智能公司自变量发布了机器人模型 WALL-B，35 天后进入真实家庭
上周末，北京亦庄举行的机器人马拉松比赛显示，先进的人形机器人速度已超越顶尖马拉松选手。自变量公司发布新一代具身智能模型WALL-B，计划在35天后将其机器...