GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。

🎯

关键要点

  • 智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。
  • 新模型Pony Alpha被认为是GLM-5的测试版,编程和推理能力强劲。
  • 智谱股价在两天内上涨60%。
  • GLM-5的架构信息来自开源社区的代码提交,包含DeepSeek稀疏注意力和多Token预测技术。
  • GLM-5包含78层隐藏层,采用MoE架构,共256个专家,支持最高202K token的上下文窗口。
  • Pony Alpha模型的出现与GLM-5发布窗口吻合,引发社区热议。
  • GLM-5预计将在2026年春节前发布,面临多个新模型的竞争。

延伸问答

GLM-5的主要技术特点是什么?

GLM-5采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。

Pony Alpha模型与GLM-5有什么关系?

Pony Alpha被认为是GLM-5的测试版,具有强劲的编程和推理能力。

智谱AI的股价为何在短时间内大幅上涨?

智谱AI的股价在两天内上涨60%,主要受GLM-5架构曝光和Pony Alpha模型发布的影响。

GLM-5的发布预计在什么时候?

GLM-5预计将在2026年春节前发布。

GLM-5的架构设计有什么优势?

GLM-5的DeepSeek稀疏注意力机制提高了长文本处理效率,且输出质量几乎不受影响。

GLM-5在上下文处理上有什么特点?

GLM-5支持最高202K token的上下文窗口,适合处理大规模文本。

➡️

继续阅读