机器之心 ·

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

DeepSeek AI 公司于2024年底开源了其最新的混合专家语言模型DeepSeek-V3-Base，参数达到685B，包含256个专家，性能显著提升，编程能力超越多款竞品，成为Claude 3.5的强劲对手。

🎯

🔎

DeepSeek-V3-Base采用了685B参数的混合专家架构，具有高稀疏性，意味着在处理输入时仅激活少量专家。这种设计不仅提高了计算效率，还增强了模型的编程能力，使其在多语言编程测评中表现优异。

在Aider多语言编程测评中，DeepSeek-V3-Base的编程能力提升至48.4%，超越了Claude 3.5和Gemini-2.0等竞争模型。这表明DeepSeek-V3在编程任务上的潜力，可能会吸引更多开发者关注和使用。

DeepSeek-V3的开源发布标志着开源模型在追赶最先进技术（SOTA）方面的快速进展。随着越来越多的开发者参与，未来可能会出现更多创新和优化，推动人工智能领域的进一步发展。

❓

DeepSeek-V3-Base采用了685B参数的混合专家架构，包含256个专家，使用sigmoid路由方式，每次选取前8个专家。

DeepSeek-V3-Base在Aider多语言编程测评中表现优异，编程性能从V2.5的17.8%提升至48.4%，提升近31%。

DeepSeek-V3与V2的主要区别包括词汇大小、隐藏层数量、注意力头数量等，V3在这些方面均有所增加。

DeepSeek-V3-Base具有高稀疏性，只有一小部分专家在给定输入时活跃，这提高了模型的效率。

DeepSeek-V3在LiveBench基准测试中整体性能超越gemini-2.0-flash-exp和Claude 3.5 Sonnet，表现非常竞争力。

网友评论称DeepSeek-V3是Claude 3.5的强劲对手，开源模型追赶SOTA的速度惊人。

🏷️