InfoQ ·

Claude Opus 4.6 引入自适应推理和上下文压缩以支持长时间运行的智能体

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Anthropic发布了Claude Opus 4.6，采用动态编排技术，解决了长时间工作中的上下文退化和过度思考问题。新版本引入自适应思维控制和上下文压缩，支持更深的思维链。Opus 4.6在多个云平台上可用，最大输出128K令牌，1M令牌的上下文窗口提升了性能。尽管在某些任务上表现不佳，但在多个评估中仍取得领先成绩。

🎯

关键要点

Anthropic发布了Claude Opus 4.6，采用动态编排技术。
新版本引入自适应思维控制和上下文压缩，解决上下文退化和过度思考问题。
Opus 4.6在多个云平台上可用，最大输出128K令牌，1M令牌的上下文窗口提升了性能。
模型提供四种努力控制：低、中、高（默认）和最大，以便根据任务复杂性调整思维深度。
上下文压缩功能解决了上下文窗口填满时的性能下降问题。
在MRCR v2基准测试中，Opus 4.6的准确率达到76%，是Sonnet 4.5的四倍。
Opus 4.6可通过Microsoft Copilot Studio、Google Cloud的Vertex AI Agent Builder和Amazon Bedrock Agents使用。
集成到PowerPoint的功能允许模型生成符合品牌的演示文稿。
在多个评估中，模型表现出色，尤其是在Terminal-Bench 2.0和GDPval-AA上。
独立测试显示模型在某些任务上表现不佳，检测后门的准确率仅为49%。
基础定价为每百万输入令牌5美元，输出令牌25美元，超过200K令牌的请求将收取额外费用。
模型可通过claude.ai、Claude API、Microsoft Foundry、AWS Bedrock和Google Cloud Vertex AI访问。

🔎

延伸解读

动态推理的优势

Claude Opus 4.6引入的动态编排技术使得模型在长时间运行的任务中表现更为出色。通过自适应思维控制，用户可以根据任务复杂性调整思维深度，从而优化性能和降低延迟。这种灵活性对于需要频繁API调用的应用场景尤为重要，能够有效控制成本。

上下文压缩的重要性

上下文压缩功能解决了在长对话中上下文窗口填满导致的性能下降问题。通过自动总结早期内容并用压缩状态替代，Claude Opus 4.6能够保持高效的对话流畅性。这一特性对于需要处理大量信息的智能体应用至关重要，尤其是在信息密集型的任务中。

性能评估与局限性

尽管Claude Opus 4.6在多个基准测试中表现优异，但独立测试显示其在某些任务上的表现不尽如人意，尤其是在检测后门时准确率仅为49%。这表明在选择使用该模型时，用户需谨慎评估其在特定应用场景下的可靠性和有效性。

❓

延伸问答

Claude Opus 4.6的主要新功能是什么？

Claude Opus 4.6引入了自适应思维控制和上下文压缩，解决了上下文退化和过度思考的问题。

Claude Opus 4.6的最大输出令牌数量是多少？

Claude Opus 4.6的最大输出为128K令牌。

如何通过Claude Opus 4.6控制思维深度？

用户可以选择低、中、高（默认）和最大四种努力控制，以根据任务复杂性调整思维深度。

Claude Opus 4.6在MRCR v2基准测试中的表现如何？

在MRCR v2基准测试中，Claude Opus 4.6的准确率达到76%，是Sonnet 4.5的四倍。

Claude Opus 4.6的定价策略是什么？

基础定价为每百万输入令牌5美元，输出令牌25美元，超过200K令牌的请求将收取额外费用。

Claude Opus 4.6如何处理上下文窗口的性能下降问题？

上下文压缩功能在上下文窗口填满时自动总结早期部分，并用压缩状态替换，以解决性能下降问题。

🏷️