Claude Opus 4.6 引入自适应推理和上下文压缩以支持长时间运行的智能体

Claude Opus 4.6 引入自适应推理和上下文压缩以支持长时间运行的智能体

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

Anthropic发布了Claude Opus 4.6,采用动态编排技术,解决了长时间工作中的上下文退化和过度思考问题。新版本引入自适应思维控制和上下文压缩,支持更深的思维链。Opus 4.6在多个云平台上可用,最大输出128K令牌,1M令牌的上下文窗口提升了性能。尽管在某些任务上表现不佳,但在多个评估中仍取得领先成绩。

🎯

关键要点

  • Anthropic发布了Claude Opus 4.6,采用动态编排技术。
  • 新版本引入自适应思维控制和上下文压缩,解决上下文退化和过度思考问题。
  • Opus 4.6在多个云平台上可用,最大输出128K令牌,1M令牌的上下文窗口提升了性能。
  • 模型提供四种努力控制:低、中、高(默认)和最大,以便根据任务复杂性调整思维深度。
  • 上下文压缩功能解决了上下文窗口填满时的性能下降问题。
  • 在MRCR v2基准测试中,Opus 4.6的准确率达到76%,是Sonnet 4.5的四倍。
  • Opus 4.6可通过Microsoft Copilot Studio、Google Cloud的Vertex AI Agent Builder和Amazon Bedrock Agents使用。
  • 集成到PowerPoint的功能允许模型生成符合品牌的演示文稿。
  • 在多个评估中,模型表现出色,尤其是在Terminal-Bench 2.0和GDPval-AA上。
  • 独立测试显示模型在某些任务上表现不佳,检测后门的准确率仅为49%。
  • 基础定价为每百万输入令牌5美元,输出令牌25美元,超过200K令牌的请求将收取额外费用。
  • 模型可通过claude.ai、Claude API、Microsoft Foundry、AWS Bedrock和Google Cloud Vertex AI访问。

延伸问答

Claude Opus 4.6的主要新功能是什么?

Claude Opus 4.6引入了自适应思维控制和上下文压缩,解决了上下文退化和过度思考的问题。

Claude Opus 4.6的最大输出令牌数量是多少?

Claude Opus 4.6的最大输出为128K令牌。

如何通过Claude Opus 4.6控制思维深度?

用户可以选择低、中、高(默认)和最大四种努力控制,以根据任务复杂性调整思维深度。

Claude Opus 4.6在MRCR v2基准测试中的表现如何?

在MRCR v2基准测试中,Claude Opus 4.6的准确率达到76%,是Sonnet 4.5的四倍。

Claude Opus 4.6的定价策略是什么?

基础定价为每百万输入令牌5美元,输出令牌25美元,超过200K令牌的请求将收取额外费用。

Claude Opus 4.6如何处理上下文窗口的性能下降问题?

上下文压缩功能在上下文窗口填满时自动总结早期部分,并用压缩状态替换,以解决性能下降问题。

➡️

继续阅读