InfoQ ·

DeepSeek发布V3.1版本，采用混合推理架构

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

DeepSeek发布了V3.1版本的大型语言模型，采用混合架构，结合思考与非思考模式。新模型在推理速度和上下文窗口长度上优于前版本，参数量达到6710亿，表现出色，适合多步骤任务，具备高性价比。

🎯

🔎

DeepSeek V3.1采用混合推理架构，结合思考与非思考模式，使其在多步骤任务中表现更佳。这种设计不仅提升了推理速度，还保持了响应质量，适合需要快速决策的应用场景。开发者在选择模型时，可以考虑其在复杂任务中的表现。

V3.1通过两阶段上下文扩展策略，将上下文窗口提升至128,000个标记。这一改进使模型能够处理更长的输入序列，适用于需要大量上下文信息的任务，如长篇文本分析或复杂对话生成。开发者应关注这一特性，以优化其应用效果。

DeepSeek V3.1在性能与成本之间取得了良好平衡，社区反馈认为其性价比高，适合替代GPT或Claude等高价模型。开发者在选择时，可以考虑其在开源编码和推理基准测试中的优异表现，以降低开发成本。

❓

DeepSeek V3.1采用混合架构，结合思考与非思考模式，参数量达到6710亿，推理速度和上下文窗口长度优于前版本。

DeepSeek V3.1通过思考模式DeepSeek-V3.1-Think提供更快的推理速度，同时保持相似的响应质量。

DeepSeek V3.1的上下文窗口长度首次扩展至32000个标记，第二阶段扩展至128000个标记。

DeepSeek V3.1在Aider基准测试中得分71.6%，表现优于Claude 4，接近GPT-4。

部分开发者认为DeepSeek V3.1性价比高，适合作为GPT或Claude的替代品，运行成本低。

DeepSeek V3.1可以通过Hugging Face、OpenRouter和Replicate等多个平台获取，并提供官方API文档。

🏷️