GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。

🎯

关键要点

  • 智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。
  • 新模型Pony Alpha被认为是GLM-5的测试版,编程和推理能力强劲。
  • 智谱股价在两天内上涨60%。
  • GLM-5的架构信息来自开源社区的代码提交,包含DeepSeek稀疏注意力和多Token预测技术。
  • GLM-5包含78层隐藏层,采用MoE架构,共256个专家,支持最高202K token的上下文窗口。
  • Pony Alpha模型的出现与GLM-5发布窗口吻合,引发社区热议。
  • GLM-5预计将在2026年春节前发布,面临多个新模型的竞争。
➡️

继续阅读