爱范儿 ·

Claude Opus 4.6 一天之内被超越两次，这次来自国产模型

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

智谱的GLM-5.1模型在SWE-bench Pro上得分58.4%，超越Claude Opus 4.6和GPT-5.4，能够独立完成复杂任务如构建Linux系统，且成本显著降低。GLM-5.1开源，支持多种推理框架，标志着国产模型的进步。

🎯

🔎

智谱的GLM-5.1模型在SWE-bench Pro上取得了显著成绩，标志着国产大模型在技术上的突破。它不仅超越了Claude Opus 4.6，还在复杂任务中展现出强大的独立工作能力，显示出国产技术的进步和潜力。

GLM-5.1的开源特性使得开发者能够自由使用和修改，降低了使用成本。然而，部分开发者反馈其推理速度较慢，复杂任务处理时间较长，这可能影响其在实际应用中的表现。用户在选择时需权衡性能与成本。

GLM-5.1在增量调优和自主优化方面的技术突破，使其在处理复杂任务时表现出色。随着模型能力的提升，未来可能在更多领域得到应用，尤其是在需要长时间运行的任务中，展现出更大的价值。

❓

GLM-5.1模型在SWE-bench Pro上得分58.4%，超越了Claude Opus 4.6和GPT-5.4，能够独立完成复杂任务，且成本显著降低。

GLM-5.1能够在8小时内从零构建完整的Linux桌面系统，包括架构设计、代码编写、测试和修复bug，执行了1200多步。

GLM-5.1的训练成本降低了97%，输入成本是Claude Opus的1/5，输出成本是1/8。

GLM-5.1是744B参数的混合专家模型，使用华为昇腾910B芯片训练，支持长上下文能力，最大输出131,072 tokens。

GLM-5.1的推理速度为44.3 tokens/秒，复杂任务处理时间较长，可能需要一小时起步。

GLM-5.1是开源的，使用MIT许可证，支持多种推理框架，任何人都可以使用和修改。

🏷️