智谱新模型也用DeepSeek的MLA,苹果M5就能跑

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。

🎯

关键要点

  • 智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿。

  • 该模型适用于本地编程和智能助手,API免费开放调用。

  • 在代码修复测试中,GLM-4.7-Flash表现优异,得分59.2。

  • 模型支持200K上下文窗口,兼容多平台,可在苹果M5上运行。

  • GLM-4.7-Flash采用混合专家架构,实际推理时仅激活约30亿参数。

  • 首次采用MLA架构,提升了模型的效率。

  • 支持本地部署,开发者在苹果笔记本上测试速度达到43 token/s。

  • 基础版GLM-4.7-Flash完全免费,高速版价格低廉。

  • 在上下文长度支持和输出token价格上具有优势,但延迟和吞吐量需优化。

延伸问答

GLM-4.7-Flash模型的主要特点是什么?

GLM-4.7-Flash模型具有300亿总参数,实际推理时仅激活30亿参数,适用于本地编程和智能助手,支持200K上下文窗口。

GLM-4.7-Flash在代码修复测试中的表现如何?

在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得了59.2分,表现优异。

GLM-4.7-Flash支持哪些应用场景?

该模型适用于本地编程、智能助手、创意写作、翻译和长上下文任务等场景。

GLM-4.7-Flash的API使用情况如何?

GLM-4.7-Flash的API完全免费开放调用,基础版限1个并发,高速版价格低廉。

GLM-4.7-Flash与前代模型相比有什么改进?

GLM-4.7-Flash在效率上进行了优化,采用了混合专家架构,实际推理时大幅降低计算开销。

GLM-4.7-Flash的运行速度如何?

在苹果M5芯片的笔记本上,GLM-4.7-Flash的运行速度可达到43 token/s。

➡️

继续阅读