Claude Opus 4.6 一天之内被超越两次,这次来自国产模型

Claude Opus 4.6 一天之内被超越两次,这次来自国产模型

💡 原文中文,约3400字,阅读约需8分钟。
📝

内容提要

智谱的GLM-5.1模型在SWE-bench Pro上得分58.4%,超越Claude Opus 4.6和GPT-5.4,能够独立完成复杂任务如构建Linux系统,且成本显著降低。GLM-5.1开源,支持多种推理框架,标志着国产模型的进步。

🎯

关键要点

  • 智谱的GLM-5.1模型在SWE-bench Pro上得分58.4%,超越Claude Opus 4.6和GPT-5.4。
  • GLM-5.1能够独立完成复杂任务,如从零构建Linux系统,且成本显著降低。
  • GLM-5.1开源,支持多种推理框架,标志着国产模型的进步。
  • GLM-5.1在技术细节上突破了以往模型的瓶颈,能够进行增量调优。
  • 模型在优化过程中实现了显著的性能提升,如查询吞吐量提升6.9倍。
  • GLM-5.1的技术规格包括744B参数,使用华为昇腾910B芯片训练,成本降低97%。
  • 开发者反馈GLM-5.1的推理速度相对较慢,复杂任务处理时间较长。
  • GLM-5.1的意义在于证明国产模型在算力受限的情况下仍能取得重要进展。

延伸问答

GLM-5.1模型的主要优势是什么?

GLM-5.1模型在SWE-bench Pro上得分58.4%,超越了Claude Opus 4.6和GPT-5.4,能够独立完成复杂任务,且成本显著降低。

GLM-5.1是如何实现从零构建Linux系统的?

GLM-5.1能够在8小时内从零构建完整的Linux桌面系统,包括架构设计、代码编写、测试和修复bug,执行了1200多步。

GLM-5.1的训练成本相比于其他模型如何?

GLM-5.1的训练成本降低了97%,输入成本是Claude Opus的1/5,输出成本是1/8。

GLM-5.1的技术规格是什么?

GLM-5.1是744B参数的混合专家模型,使用华为昇腾910B芯片训练,支持长上下文能力,最大输出131,072 tokens。

GLM-5.1在推理速度上有什么不足?

GLM-5.1的推理速度为44.3 tokens/秒,复杂任务处理时间较长,可能需要一小时起步。

GLM-5.1的开源情况如何?

GLM-5.1是开源的,使用MIT许可证,支持多种推理框架,任何人都可以使用和修改。

➡️

继续阅读