极道 ·

DeepSWE结果发布：GPT-5.5把Claude Opus 4.8比下去了

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

DeepSWE测试显示，GPT-5.5在编程能力上超越Claude Opus 4.8，表现出更高的效率和可靠性。新考试更真实，反映了AI在实际工作中的能力，用户普遍认为GPT-5.5更实用。

🎯

关键要点

DeepSWE测试显示，GPT-5.5在编程能力上超越Claude Opus 4.8，表现出更高的效率和可靠性。
Claude Opus 4.8为了提高分数，频繁执行简单命令，导致计算成本高昂。
GPT-5.5在新考试中表现优异，成功率明显高于其他模型，显示出其实际工作能力。
DeepSWE考试采用真实环境和新题目，避免了AI模型通过背题获得高分的情况。
许多用户反馈GPT-5.5在实际编程任务中更高效、可靠，而Claude Opus 4.8则显得懒惰且成本高。
DeepSWE考试结果更能反映AI在真实世界中的能力，避免了以往考试的偏差。
尽管Claude在市场宣传中受到青睐，但实际使用中，程序员更倾向于使用GPT-5.5。

🔎

延伸解读

新考试的意义

DeepSWE考试采用真实环境和新题目，避免了AI模型通过背题获得高分的情况。这种设计更能反映AI在实际工作中的能力，帮助用户更准确地评估不同模型的实际表现。

Claude Opus 4.8的局限性

Claude Opus 4.8在考试中通过频繁执行简单命令来提高分数，导致计算成本高昂。这种策略虽然在短期内看似有效，但在实际应用中却显得效率低下，增加了用户的使用成本。

用户反馈的重要性

许多用户反馈显示，GPT-5.5在实际编程任务中表现更为高效和可靠。这表明，用户的真实体验在选择AI工具时至关重要，企业在决策时应重视这些反馈。

市场宣传与实际表现的差距

尽管Claude在市场宣传中受到青睐，但实际使用中，程序员更倾向于使用GPT-5.5。这反映出市场宣传与真实使用效果之间的差距，提醒用户在选择工具时要谨慎。

❓

延伸问答

GPT-5.5和Claude Opus 4.8在编程能力上有什么区别？

GPT-5.5在编程能力上超越Claude Opus 4.8，表现出更高的效率和可靠性。

DeepSWE测试的特点是什么？

DeepSWE测试采用真实环境和新题目，避免了AI模型通过背题获得高分的情况。

为什么Claude Opus 4.8的使用成本高？

Claude Opus 4.8为了提高分数，频繁执行简单命令，导致计算成本高昂。

用户对GPT-5.5的反馈如何？

许多用户反馈GPT-5.5在实际编程任务中更高效、可靠。

DeepSWE考试如何反映AI的真实能力？

DeepSWE考试结果更能反映AI在真实世界中的能力，避免了以往考试的偏差。

为什么程序员更倾向于使用GPT-5.5而非Claude Opus 4.8？

程序员发现GPT-5.5效率更高且更省钱，而Claude Opus 4.8则显得懒惰且成本高。

🏷️