智谱新模型也用DeepSeek的MLA,苹果M5就能跑

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。

🎯

关键要点

  • 智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿。

  • 该模型适用于本地编程和智能助手,API免费开放调用。

  • 在代码修复测试中,GLM-4.7-Flash表现优异,得分59.2。

  • 模型支持200K上下文窗口,兼容多平台,可在苹果M5上运行。

  • GLM-4.7-Flash采用混合专家架构,实际推理时仅激活约30亿参数。

  • 首次采用MLA架构,提升了模型的效率。

  • 支持本地部署,开发者在苹果笔记本上测试速度达到43 token/s。

  • 基础版GLM-4.7-Flash完全免费,高速版价格低廉。

  • 在上下文长度支持和输出token价格上具有优势,但延迟和吞吐量需优化。

🔎

延伸解读

模型架构的创新

GLM-4.7-Flash首次采用MLA架构,提升了模型的推理效率。通过仅激活30亿参数,模型在保持性能的同时显著降低了计算资源的消耗。这种创新使得开发者在本地部署时能够更高效地利用硬件资源,尤其是在苹果M5等设备上。

应用场景的多样性

除了编程,GLM-4.7-Flash还适用于创意写作、翻译和长上下文任务等多种场景。这种多功能性使得该模型在不同领域的应用潜力巨大,开发者可以根据需求灵活选择使用场景,提升工作效率。

与同类模型的比较

在上下文长度支持和输出token价格方面,GLM-4.7-Flash相较于同类模型具有明显优势。然而,当前的延迟和吞吐量仍需优化,开发者在选择时应关注这些性能指标,以确保满足实际应用需求。

延伸问答

GLM-4.7-Flash模型的主要特点是什么?

GLM-4.7-Flash模型具有300亿总参数,实际推理时仅激活30亿参数,适用于本地编程和智能助手,支持200K上下文窗口。

GLM-4.7-Flash在代码修复测试中的表现如何?

在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得了59.2分,表现优异。

GLM-4.7-Flash支持哪些应用场景?

该模型适用于本地编程、智能助手、创意写作、翻译和长上下文任务等场景。

GLM-4.7-Flash的API使用情况如何?

GLM-4.7-Flash的API完全免费开放调用,基础版限1个并发,高速版价格低廉。

GLM-4.7-Flash与前代模型相比有什么改进?

GLM-4.7-Flash在效率上进行了优化,采用了混合专家架构,实际推理时大幅降低计算开销。

GLM-4.7-Flash的运行速度如何?

在苹果M5芯片的笔记本上,GLM-4.7-Flash的运行速度可达到43 token/s。

🏷️

标签

➡️

继续阅读