爱范儿 ·

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

Anthropic 最近发布了 Claude Opus 4.7，尽管不是最强模型，但其“靠谱”特性引发关注。新版本在多个基准测试中表现优异，尤其在代码生成和任务韧性方面展现出更高的能力。4.7 能够反驳不合理的方案，并在遇到问题时继续执行任务。

🎯

关键要点

Anthropic 最近发布了 Claude Opus 4.7，尽管不是最强模型，但其“靠谱”特性引发关注。
Claude Opus 4.7 在多个基准测试中表现优异，尤其在代码生成和任务韧性方面展现出更高的能力。
在 SWE-bench Pro 基准测试中，4.7 的得分从 53.4% 提升至 64.3%，超越了 GPT-5.4 和 Gemini 3.1 Pro。
在视觉推理的 CharXiv 基准中，4.7 的得分从 69.1% 跳升至 82.1%，显示出更高的识别能力。
Claude 4.7 在代码生成方面展现出更好的决策能力，能够反驳不合理的方案。
在多步任务中，4.7 的工具错误率降至原来的三分之一，能够在工具链崩溃时继续执行任务。
4.7 引入了新的分词器，导致 Token 消耗增加，同时推出了新的 xhigh 级别以应对复杂任务。
Claude 4.7 的发布标志着 Anthropic 在 AI 领域的持续创新和对工作流的深度嵌入。

🔎

延伸解读

Claude 4.7的“靠谱”特性

Claude Opus 4.7 的发布强调了其“靠谱”特性，这意味着它不仅能执行任务，还能在面对不合理方案时进行反驳。这种能力在实际工作中尤为重要，能够帮助用户做出更明智的决策，提升工作效率。

基准测试的显著提升

在多个基准测试中，Claude 4.7 的得分显著提升，尤其是在 SWE-bench Pro 和 CharXiv 测试中，分别提高了近 11 个百分点和 13 个百分点。这表明其在代码生成和视觉推理方面的能力有了质的飞跃，值得开发者关注。

任务韧性的提升

Claude 4.7 在多步任务中的韧性显著增强，工具错误率降至原来的三分之一。这意味着在复杂任务中，即使遇到工具调用失败，它也能继续执行任务，减少了工作中断的风险，提升了整体生产力。

Token消耗的增加

新版本引入了全新的分词器，导致 Token 消耗增加。这意味着在使用 Claude 4.7 时，用户需要考虑到更高的成本，尤其是在高强度任务中，合理规划 Token 使用将变得更加重要。

❓

延伸问答

Claude Opus 4.7的主要特点是什么？

Claude Opus 4.7以其“靠谱”特性引发关注，能够反驳不合理的方案，并在遇到问题时继续执行任务。

Claude Opus 4.7在基准测试中的表现如何？

在SWE-bench Pro基准测试中，4.7得分从53.4%提升至64.3%，在视觉推理的CharXiv基准中得分从69.1%跳升至82.1%。

Claude Opus 4.7在代码生成方面有什么优势？

Claude 4.7展现出更好的决策能力，能够在技术讨论中反驳用户的方案，帮助做出更好的决定。

Claude Opus 4.7的任务韧性如何？

4.7在多步任务中工具错误率降至原来的三分之一，并能在工具链崩溃时继续执行任务。

Claude Opus 4.7的Token消耗情况如何？

4.7引入了新的分词器，导致Token消耗增加，且在高强度任务中倾向于多花时间思考。

Claude Opus 4.7与前代模型相比有什么不同？

4.7在处理模糊指令时会更严格，可能导致与前代模型不同的结果，强调清晰表达需求的重要性。

🏷️