InfoQ ·

Anthropic的Claude Opus 4.1提升了重构和安全性，SWE-bench Verified得分达到74.5%

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Anthropic推出Claude Opus 4.1，提升了多文件项目的编码可靠性和长时间交互的推理能力，SWE-bench Verified得分达到74.5%。新版本改善了代码重构和推理链跟踪，安全性提升，'无害响应率'达到98.76%。该模型现已向付费用户开放。

🎯

🔎

Claude Opus 4.1在多文件项目中的编码可靠性显著增强，特别是在代码重构方面。这一改进使得开发者在处理复杂项目时能够更高效地进行修改，减少了因AI助手能力不足而导致的错误。

新版本的'无害响应率'提升至98.76%，显示出在拒绝不当请求方面的可靠性增强。这对于企业用户尤为重要，因为合规性和品牌风险是他们在选择AI工具时必须考虑的关键因素。

SWE-bench Verified得分的提升反映了Claude Opus 4.1在解决真实世界问题上的能力增强。这一基准测试被广泛认可，能够更好地评估AI助手在实际开发中的应用效果，超越了传统的合成基准。

❓

Claude Opus 4.1提升了多文件项目的编码可靠性和长时间交互的推理能力，SWE-bench Verified得分提高至74.5%。

SWE-bench Verified是评估编码助手在解决真实世界GitHub问题能力的基准，Claude Opus 4.1的得分为74.5%。

Claude Opus 4.1的'无害响应率'提升至98.76%，增强了拒绝违反政策请求的可靠性。

新版本增强了在多文件上下文中的代码重构能力，能够更可靠地处理复杂的重构任务。

Claude Opus 4.1现已向付费用户开放，支持终端工作流和API访问，定价与Opus 4保持一致。

企业可以通过Claude Opus 4.1提高编码可靠性，减少高风险滥用场景的合作，从而增强合规性和品牌风险管理。

🏷️