智谱新模型也用DeepSeek的MLA,苹果M5就能跑
内容提要
智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。
关键要点
-
智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿。
-
该模型适用于本地编程和智能助手,API免费开放调用。
-
在代码修复测试中,GLM-4.7-Flash表现优异,得分59.2。
-
模型支持200K上下文窗口,兼容多平台,可在苹果M5上运行。
-
GLM-4.7-Flash采用混合专家架构,实际推理时仅激活约30亿参数。
-
首次采用MLA架构,提升了模型的效率。
-
支持本地部署,开发者在苹果笔记本上测试速度达到43 token/s。
-
基础版GLM-4.7-Flash完全免费,高速版价格低廉。
-
在上下文长度支持和输出token价格上具有优势,但延迟和吞吐量需优化。
延伸解读
模型架构的创新
GLM-4.7-Flash首次采用MLA架构,提升了模型的推理效率。通过仅激活30亿参数,模型在保持性能的同时显著降低了计算资源的消耗。这种创新使得开发者在本地部署时能够更高效地利用硬件资源,尤其是在苹果M5等设备上。
应用场景的多样性
除了编程,GLM-4.7-Flash还适用于创意写作、翻译和长上下文任务等多种场景。这种多功能性使得该模型在不同领域的应用潜力巨大,开发者可以根据需求灵活选择使用场景,提升工作效率。
与同类模型的比较
在上下文长度支持和输出token价格方面,GLM-4.7-Flash相较于同类模型具有明显优势。然而,当前的延迟和吞吐量仍需优化,开发者在选择时应关注这些性能指标,以确保满足实际应用需求。
延伸问答
GLM-4.7-Flash模型的主要特点是什么?
GLM-4.7-Flash模型具有300亿总参数,实际推理时仅激活30亿参数,适用于本地编程和智能助手,支持200K上下文窗口。
GLM-4.7-Flash在代码修复测试中的表现如何?
在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得了59.2分,表现优异。
GLM-4.7-Flash支持哪些应用场景?
该模型适用于本地编程、智能助手、创意写作、翻译和长上下文任务等场景。
GLM-4.7-Flash的API使用情况如何?
GLM-4.7-Flash的API完全免费开放调用,基础版限1个并发,高速版价格低廉。
GLM-4.7-Flash与前代模型相比有什么改进?
GLM-4.7-Flash在效率上进行了优化,采用了混合专家架构,实际推理时大幅降低计算开销。
GLM-4.7-Flash的运行速度如何?
在苹果M5芯片的笔记本上,GLM-4.7-Flash的运行速度可达到43 token/s。