Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进,减少了谄媚和欺骗倾向,安全评分达到98.7%。用户反馈表明编码工作流显著提升,建议所有用户升级。

🎯

关键要点

  • Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。

  • 该模型在安全性和训练方法上有显著改进,减少了谄媚、欺骗、权力寻求和妄想推理的倾向。

  • Claude Sonnet 4.5在SWE-bench Verified基准测试中得分77.2%,在OSWorld基准测试中得分61.4%,显示出自主编码能力的显著提升。

  • Anthropic称Sonnet 4.5为其“最对齐的前沿模型”,在更强能力与更严格的安全措施之间取得平衡。

  • 安全评分达到98.7%,相比Claude Sonnet 4的89.3%有显著提升,显示出更强的拒绝行为和抵御恶意使用的能力。

  • Anthropic建议所有用户升级到Claude Sonnet 4.5,认为其是“直接替代品”,在不增加成本的情况下提供更强的性能。

  • 早期用户反馈显示,Claude Sonnet 4.5在编码工作流中带来了可衡量的提升,表现出色。

  • Anthropic在安全性和自主编码模型方面的推进与AI生态系统中的类似进展相呼应,OpenAI最近发布了针对复杂软件工程任务优化的GPT-5-Codex。

延伸问答

Claude Sonnet 4.5有哪些主要改进?

Claude Sonnet 4.5在代理任务、长时间任务表现和计算机使用能力上有显著提升,安全性和训练方法也得到了改善。

Claude Sonnet 4.5的安全评分是多少?

Claude Sonnet 4.5的安全评分达到98.7%,相比于Claude Sonnet 4的89.3%有显著提升。

用户反馈如何评价Claude Sonnet 4.5的编码工作流?

早期用户反馈显示,Claude Sonnet 4.5在编码工作流中带来了可衡量的提升,表现出色。

Claude Sonnet 4.5在基准测试中的表现如何?

在SWE-bench Verified基准测试中,Claude Sonnet 4.5得分77.2%,在OSWorld基准测试中得分61.4%,显示出自主编码能力的显著提升。

Anthropic为什么建议用户升级到Claude Sonnet 4.5?

Anthropic认为Claude Sonnet 4.5是“直接替代品”,在不增加成本的情况下提供更强的性能,因此建议所有用户升级。

Claude Sonnet 4.5与GPT-5-Codex相比如何?

一些用户认为Claude Sonnet 4.5在编码方面表现得比GPT-5-Codex更好,尤其是在代码测试和编辑能力上。

➡️

继续阅读