GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。
🎯
关键要点
- 智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。
- 新模型Pony Alpha被认为是GLM-5的测试版,编程和推理能力强劲。
- 智谱股价在两天内上涨60%。
- GLM-5的架构信息来自开源社区的代码提交,包含DeepSeek稀疏注意力和多Token预测技术。
- GLM-5包含78层隐藏层,采用MoE架构,共256个专家,支持最高202K token的上下文窗口。
- Pony Alpha模型的出现与GLM-5发布窗口吻合,引发社区热议。
- GLM-5预计将在2026年春节前发布,面临多个新模型的竞争。
❓
延伸问答
GLM-5的主要技术特点是什么?
GLM-5采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。
Pony Alpha模型与GLM-5有什么关系?
Pony Alpha被认为是GLM-5的测试版,具有强劲的编程和推理能力。
智谱AI的股价为何在短时间内大幅上涨?
智谱AI的股价在两天内上涨60%,主要受GLM-5架构曝光和Pony Alpha模型发布的影响。
GLM-5的发布预计在什么时候?
GLM-5预计将在2026年春节前发布。
GLM-5的架构设计有什么优势?
GLM-5的DeepSeek稀疏注意力机制提高了长文本处理效率,且输出质量几乎不受影响。
GLM-5在上下文处理上有什么特点?
GLM-5支持最高202K token的上下文窗口,适合处理大规模文本。
➡️