内容提要
Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进,减少了谄媚和欺骗倾向,安全评分达到98.7%。用户反馈表明编码工作流显著提升,建议所有用户升级。
关键要点
-
Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。
-
该模型在安全性和训练方法上有显著改进,减少了谄媚、欺骗、权力寻求和妄想推理的倾向。
-
Claude Sonnet 4.5在SWE-bench Verified基准测试中得分77.2%,在OSWorld基准测试中得分61.4%,显示出自主编码能力的显著提升。
-
Anthropic称Sonnet 4.5为其“最对齐的前沿模型”,在更强能力与更严格的安全措施之间取得平衡。
-
安全评分达到98.7%,相比Claude Sonnet 4的89.3%有显著提升,显示出更强的拒绝行为和抵御恶意使用的能力。
-
Anthropic建议所有用户升级到Claude Sonnet 4.5,认为其是“直接替代品”,在不增加成本的情况下提供更强的性能。
-
早期用户反馈显示,Claude Sonnet 4.5在编码工作流中带来了可衡量的提升,表现出色。
-
Anthropic在安全性和自主编码模型方面的推进与AI生态系统中的类似进展相呼应,OpenAI最近发布了针对复杂软件工程任务优化的GPT-5-Codex。
延伸问答
Claude Sonnet 4.5有哪些主要改进?
Claude Sonnet 4.5在代理任务、长时间任务表现和计算机使用能力上有显著提升,安全性和训练方法也得到了改善。
Claude Sonnet 4.5的安全评分是多少?
Claude Sonnet 4.5的安全评分达到98.7%,相比于Claude Sonnet 4的89.3%有显著提升。
用户反馈如何评价Claude Sonnet 4.5的编码工作流?
早期用户反馈显示,Claude Sonnet 4.5在编码工作流中带来了可衡量的提升,表现出色。
Claude Sonnet 4.5在基准测试中的表现如何?
在SWE-bench Verified基准测试中,Claude Sonnet 4.5得分77.2%,在OSWorld基准测试中得分61.4%,显示出自主编码能力的显著提升。
Anthropic为什么建议用户升级到Claude Sonnet 4.5?
Anthropic认为Claude Sonnet 4.5是“直接替代品”,在不增加成本的情况下提供更强的性能,因此建议所有用户升级。
Claude Sonnet 4.5与GPT-5-Codex相比如何?
一些用户认为Claude Sonnet 4.5在编码方面表现得比GPT-5-Codex更好,尤其是在代码测试和编辑能力上。