刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

📝

内容提要

Anthropic 最近发布了 Claude Opus 4.7,尽管不是最强模型,但其“靠谱”特性引发关注。新版本在多个基准测试中表现优异,尤其在代码生成和任务韧性方面展现出更高的能力。4.7 能够反驳不合理的方案,并在遇到问题时继续执行任务。

🎯

关键要点

  • Anthropic 最近发布了 Claude Opus 4.7,尽管不是最强模型,但其“靠谱”特性引发关注。

  • Claude Opus 4.7 在多个基准测试中表现优异,尤其在代码生成和任务韧性方面展现出更高的能力。

  • 在 SWE-bench Pro 基准测试中,4.7 的得分从 53.4% 提升至 64.3%,超越了 GPT-5.4 和 Gemini 3.1 Pro。

  • 在视觉推理的 CharXiv 基准中,4.7 的得分从 69.1% 跳升至 82.1%,显示出更高的识别能力。

  • Claude 4.7 在代码生成方面展现出更好的决策能力,能够反驳不合理的方案。

  • 在多步任务中,4.7 的工具错误率降至原来的三分之一,能够在工具链崩溃时继续执行任务。

  • 4.7 引入了新的分词器,导致 Token 消耗增加,同时推出了新的 xhigh 级别以应对复杂任务。

  • Claude 4.7 的发布标志着 Anthropic 在 AI 领域的持续创新和对工作流的深度嵌入。

延伸问答

Claude Opus 4.7的主要特点是什么?

Claude Opus 4.7以其“靠谱”特性引发关注,能够反驳不合理的方案,并在遇到问题时继续执行任务。

Claude Opus 4.7在基准测试中的表现如何?

在SWE-bench Pro基准测试中,4.7得分从53.4%提升至64.3%,在视觉推理的CharXiv基准中得分从69.1%跳升至82.1%。

Claude Opus 4.7在代码生成方面有什么优势?

Claude 4.7展现出更好的决策能力,能够在技术讨论中反驳用户的方案,帮助做出更好的决定。

Claude Opus 4.7的任务韧性如何?

4.7在多步任务中工具错误率降至原来的三分之一,并能在工具链崩溃时继续执行任务。

Claude Opus 4.7的Token消耗情况如何?

4.7引入了新的分词器,导致Token消耗增加,且在高强度任务中倾向于多花时间思考。

Claude Opus 4.7与前代模型相比有什么不同?

4.7在处理模糊指令时会更严格,可能导致与前代模型不同的结果,强调清晰表达需求的重要性。

➡️

继续阅读