InfoQ ·

Claude Sonnet 4.5 在SWE-Bench验证中表现出色，编码专注时间延长至30小时以上

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Anthropic发布了Claude Sonnet 4.5，这是其最新的编码模型，显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进，减少了谄媚和欺骗倾向，安全评分达到98.7%。用户反馈表明编码工作流显著提升，建议所有用户升级。

🎯

Anthropic发布了Claude Sonnet 4.5，这是其最新的编码模型，显著提升了代理任务和计算机使用能力。
该模型在安全性和训练方法上有显著改进，减少了谄媚、欺骗、权力寻求和妄想推理的倾向。
Claude Sonnet 4.5在SWE-bench Verified基准测试中得分77.2%，在OSWorld基准测试中得分61.4%，显示出自主编码能力的显著提升。
Anthropic称Sonnet 4.5为其“最对齐的前沿模型”，在更强能力与更严格的安全措施之间取得平衡。
安全评分达到98.7%，相比Claude Sonnet 4的89.3%有显著提升，显示出更强的拒绝行为和抵御恶意使用的能力。
Anthropic建议所有用户升级到Claude Sonnet 4.5，认为其是“直接替代品”，在不增加成本的情况下提供更强的性能。
早期用户反馈显示，Claude Sonnet 4.5在编码工作流中带来了可衡量的提升，表现出色。
Anthropic在安全性和自主编码模型方面的推进与AI生态系统中的类似进展相呼应，OpenAI最近发布了针对复杂软件工程任务优化的GPT-5-Codex。

🔎

Claude Sonnet 4.5在安全性方面的显著提升，安全评分达到98.7%，相比前一版本的89.3%有了大幅改善。这意味着在使用过程中，用户可以更放心地依赖该模型进行编码，减少了潜在的恶意使用风险。安全性是AI模型应用中的关键因素，尤其是在处理敏感信息时。

早期用户反馈显示，Claude Sonnet 4.5在编码工作流中带来了可衡量的提升。例如，某用户的编码计划性能提高了18%，错误率从9%降至0%。这表明新模型不仅在技术能力上有所突破，还能有效提高开发效率，适合需要高效编码的团队使用。

Claude Sonnet 4.5与OpenAI的GPT-5-Codex相比，用户反馈认为其在编码方面表现更佳。这种比较反映了市场上不同AI编码模型的竞争态势，用户在选择时应关注各自的特点和适用场景，以便找到最符合需求的工具。

❓

Claude Sonnet 4.5在代理任务、长时间任务表现和计算机使用能力上有显著提升，安全性和训练方法也得到了改善。

Claude Sonnet 4.5的安全评分达到98.7%，相比于Claude Sonnet 4的89.3%有显著提升。

早期用户反馈显示，Claude Sonnet 4.5在编码工作流中带来了可衡量的提升，表现出色。

在SWE-bench Verified基准测试中，Claude Sonnet 4.5得分77.2%，在OSWorld基准测试中得分61.4%，显示出自主编码能力的显著提升。

Anthropic认为Claude Sonnet 4.5是“直接替代品”，在不增加成本的情况下提供更强的性能，因此建议所有用户升级。

一些用户认为Claude Sonnet 4.5在编码方面表现得比GPT-5-Codex更好，尤其是在代码测试和编辑能力上。

🏷️