Anthropic推出Opus 4.7,坦言依不及Mythos

Anthropic推出Opus 4.7,坦言依不及Mythos

💡 原文中文,约7700字,阅读约需19分钟。
📝

内容提要

Anthropic于4月17日发布了Claude Opus 4.7,这是其最强的公开模型,专注于编程和智能体任务。尽管在编码和工具使用上有所提升,但在网络搜索和非代码任务上表现不佳。用户需直接下指令而非依赖模型推测,API规则也有所收紧,老用户需迁移。整体来看,Opus 4.7适合需要可靠操作的场景,但在研究类任务上体验可能下降。

🎯

关键要点

  • Anthropic于4月17日发布Claude Opus 4.7,主打编程和智能体任务。

  • Opus 4.7在编码和工具使用上有显著提升,但在网络搜索和非代码任务上表现不佳。

  • 用户需直接下指令,而非依赖模型推测,API规则收紧,老用户需迁移。

  • Opus 4.7在SWE-bench Verified基准测试中得分87.6%,在编码能力上显著提高。

  • 在智能体搜索测试中,Opus 4.7得分79.3%,低于前一代模型的83.7%。

  • API行为收紧,现有团队需进行迁移工作,特别是在token使用和推理内容可见性方面。

  • 使用Opus 4.7时需直接下指令,避免模糊提示,以提高模型的响应质量。

  • 对于需要深度网络研究和多页面信息整合的任务,建议继续使用Opus 4.6。

  • Opus 4.7在长时间运行的任务上表现更好,适合需要可靠操作的场景。

延伸问答

Opus 4.7相比于前一代模型有哪些显著提升?

Opus 4.7在编码和工具使用上有显著提升,SWE-bench Verified基准测试得分从80.8%提高到87.6%。

使用Opus 4.7时需要注意哪些操作方式?

用户需直接下指令,而非依赖模型推测,以提高响应质量。

Opus 4.7在网络搜索能力上表现如何?

Opus 4.7在智能体搜索测试中得分79.3%,低于前一代模型的83.7%。

API规则的变化对老用户有什么影响?

API规则收紧,老用户需进行迁移,特别是在token使用和推理内容可见性方面。

Opus 4.7适合哪些类型的任务?

Opus 4.7适合需要可靠操作的场景,如编程和智能体任务,但在研究类任务上体验可能下降。

在使用Opus 4.7时,如何提高模型的响应质量?

应避免模糊提示,明确指令和任务要求,以提高模型的响应质量。

➡️

继续阅读