GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。
🎯
关键要点
- 智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。
- 新模型Pony Alpha被认为是GLM-5的测试版,编程和推理能力强劲。
- 智谱股价在两天内上涨60%。
- GLM-5的架构信息来自开源社区的代码提交,包含DeepSeek稀疏注意力和多Token预测技术。
- GLM-5包含78层隐藏层,采用MoE架构,共256个专家,支持最高202K token的上下文窗口。
- Pony Alpha模型的出现与GLM-5发布窗口吻合,引发社区热议。
- GLM-5预计将在2026年春节前发布,面临多个新模型的竞争。
➡️