实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 | 附彩蛋

实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 | 附彩蛋

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

DeepSeek新模型V3.1上线,参数达到6850亿,编程能力超越Claude 4,但写作表现较差。测试显示其在长文本处理和编程任务中表现优异,逻辑清晰,数学能力强。尽管创作能力不足,整体技术进步显著,备受关注。

🎯

关键要点

  • DeepSeek新模型V3.1上线,参数达到6850亿。
  • 编程能力超越Claude 4,但写作表现较差。
  • 在长文本处理和编程任务中表现优异,逻辑清晰,数学能力强。
  • V3.1在编程基准测试中得分71.6%,表现最佳。
  • 生成的代码在物理特性上表现逼真,细节处理到位。
  • 数学推导逻辑清晰,能够准确回答复杂问题。
  • 在小众地理问题上,回答质量超越GPT-5。
  • 写作能力不足,创作内容显得AI味重,信息密度过高。
  • DeepSeek V3.1在Hugging Face上排名上升,发展势头强劲。
  • 移除了深度思考模式中的「R1」标识,搜索功能得到优化。
  • 可能是融合推理模型与非推理模型的混合模型,技术路线尚待商榷。

延伸问答

DeepSeek V3.1模型的参数有多少?

DeepSeek V3.1模型的参数达到6850亿。

DeepSeek V3.1在编程能力上与Claude 4相比如何?

DeepSeek V3.1的编程能力超越Claude 4,在编程基准测试中得分71.6%。

DeepSeek V3.1在写作方面的表现如何?

DeepSeek V3.1的写作表现较差,创作内容显得AI味重,信息密度过高。

DeepSeek V3.1在长文本处理方面的表现如何?

DeepSeek V3.1在长文本处理方面表现优异,逻辑清晰。

DeepSeek V3.1的数学能力如何?

DeepSeek V3.1的数学推导逻辑清晰,能够准确回答复杂问题。

DeepSeek V3.1的搜索功能有什么变化?

DeepSeek V3.1移除了深度思考模式中的「R1」标识,并新增了原生「search token」支持,搜索功能得到优化。

➡️

继续阅读