💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
Anthropic于8月6日发布了Claude Opus 4.1,作为Opus 4的升级,提升了编码、长程任务和安全性。新模型在SWE-bench中取得74.5%的成绩,支持32k token输出,优化了复杂任务处理,价格保持不变。Opus 4.1为开发者提供了更强的推理能力和多工具协作,预示着未来的混合推理代理时代。
🎯
关键要点
- Anthropic于8月6日发布了Claude Opus 4.1,作为Opus 4的升级,提升了编码、长程任务和安全性。
- 新模型在SWE-bench中取得74.5%的成绩,领先主流同级模型,出Bug率显著降低。
- 支持最高32k token单次输出,优化了复杂任务处理,提供更强的推理能力。
- Opus 4.1在工具使用代理基准中将初始步数上限从30步放宽至100步,支持复杂任务的一次性完成。
- 价格体系保持不变,输入价格15 USD/MTok,输出价格75 USD/MTok,继续采用同价升配策略。
- 安全体系保持ASL-3档,单轮违法请求拒绝率提高,偏见指标进一步接近0。
- 企业反馈显示调试效率提升,工具调用次数减少,整体性能提升。
- 与自家产品线相比,Opus 4.1在推理能力和上下文处理上表现最强。
- Anthropic正试图将LLM拉向更稳健的混合推理代理范式,提升可解释性和代理自主性。
- 未来数周将有更大升级,2025年将集中在具身化、长程、多工具协作等领域。
❓
延伸问答
Claude Opus 4.1的主要升级内容是什么?
Claude Opus 4.1在编码、长程任务和安全性上进行了多项关键突破,支持最高32k token输出,并在SWE-bench中取得74.5%的成绩。
Opus 4.1在安全性方面有哪些改进?
Opus 4.1的单轮违法请求拒绝率提高到98.76%,偏见指标接近0,且对恶意用例的顺从度下降25%。
Opus 4.1的价格体系是怎样的?
Opus 4.1的输入价格为15 USD/MTok,输出价格为75 USD/MTok,价格体系与Opus 4保持一致。
Opus 4.1如何支持复杂任务的处理?
Opus 4.1将初始步数上限从30步放宽至100步,能够一次性完成复杂任务,如跨渠道营销自动化和超长科研综述。
与其他模型相比,Opus 4.1的推理能力如何?
Opus 4.1在推理能力和上下文处理上表现最强,领先于自家其他产品线。
未来Anthropic对Opus系列的计划是什么?
Anthropic计划在未来数周内进行更大升级,2025年将集中在具身化、长程和多工具协作等领域。
➡️