智谱新模型也用DeepSeek的MLA,苹果M5就能跑
💡
原文中文,约1200字,阅读约需3分钟。
📝
内容提要
智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。
🎯
关键要点
-
智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿。
-
该模型适用于本地编程和智能助手,API免费开放调用。
-
在代码修复测试中,GLM-4.7-Flash表现优异,得分59.2。
-
模型支持200K上下文窗口,兼容多平台,可在苹果M5上运行。
-
GLM-4.7-Flash采用混合专家架构,实际推理时仅激活约30亿参数。
-
首次采用MLA架构,提升了模型的效率。
-
支持本地部署,开发者在苹果笔记本上测试速度达到43 token/s。
-
基础版GLM-4.7-Flash完全免费,高速版价格低廉。
-
在上下文长度支持和输出token价格上具有优势,但延迟和吞吐量需优化。
❓
延伸问答
GLM-4.7-Flash模型的主要特点是什么?
GLM-4.7-Flash模型具有300亿总参数,实际推理时仅激活30亿参数,适用于本地编程和智能助手,支持200K上下文窗口。
GLM-4.7-Flash在代码修复测试中的表现如何?
在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得了59.2分,表现优异。
GLM-4.7-Flash支持哪些应用场景?
该模型适用于本地编程、智能助手、创意写作、翻译和长上下文任务等场景。
GLM-4.7-Flash的API使用情况如何?
GLM-4.7-Flash的API完全免费开放调用,基础版限1个并发,高速版价格低廉。
GLM-4.7-Flash与前代模型相比有什么改进?
GLM-4.7-Flash在效率上进行了优化,采用了混合专家架构,实际推理时大幅降低计算开销。
GLM-4.7-Flash的运行速度如何?
在苹果M5芯片的笔记本上,GLM-4.7-Flash的运行速度可达到43 token/s。
➡️