💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
Anthropic推出Claude Opus 4.1,提升了多文件项目的编码可靠性和长时间交互的推理能力,SWE-bench Verified得分达到74.5%。新版本改善了代码重构和推理链跟踪,安全性提升,'无害响应率'达到98.76%。该模型现已向付费用户开放。
🎯
关键要点
- Anthropic推出Claude Opus 4.1,提升了多文件项目的编码可靠性和长时间交互的推理能力。
- 新版本的SWE-bench Verified得分达到74.5%,较之前的72.5%有所提升。
- Claude Opus 4.1增强了作为编码助手的能力,特别是在多文件上下文中的代码重构。
- 模型在跟踪推理链和状态方面的能力有所改善,适用于代理类工作流程。
- SWE-bench Verified被认为是编码助手的基准,评估模型解决真实世界GitHub问题的能力。
- GitHub和Rakuten Group报告了在复杂重构任务上的更强表现,Claude能够在大型代码库中精确定位修正。
- Claude Opus 4.1的'无害响应率'提升至98.76%,反映出拒绝违反政策请求的可靠性增强。
- 公司报告与高风险滥用场景的合作减少了25%,增强了企业合规性和品牌风险的关注。
- Claude Opus 4.1现已向付费用户开放,支持终端工作流和API访问,定价与Opus 4保持一致。
➡️