量子位 ·

DeepSeek V4报告太详尽了！484天换代之路全公开

💡 原文中文，约6800字，阅读约需16分钟。

📝

内容提要

DeepSeek V4发布，获得好评。主要创新包括百万token上下文开源、KV cache大幅缩减、mHC强化残差连接和hybrid attention架构，提升长文处理效率。训练数据量翻倍，模型参数显著增加，表现超越多款闭源模型。未来将继续探索新技术，推动开源进程。

🎯

🔎

DeepSeek V4在长文处理效率上的提升，尤其是百万token上下文的开源，可能会改变当前自然语言处理领域的竞争格局。通过大幅减少KV cache的需求，DeepSeek V4不仅降低了硬件成本，还为处理复杂任务提供了新的可能性，尤其是在需要长时间对话或分析长文档的场景中。

DeepSeek V4在标准推理benchmark上超越了多款闭源模型，显示出开源模型的强大竞争力。这一成果不仅提升了开源社区的信心，也为未来的技术发展指明了方向，尤其是在追求透明性和可持续性的背景下，开源模型的优势愈发明显。

尽管DeepSeek V4在技术上取得了显著进展，但团队也意识到架构的复杂性可能会带来维护和优化上的挑战。未来的迭代需要在保持创新的同时，简化架构，以便更好地应对不断变化的市场需求和技术挑战。

❓

DeepSeek V4的主要创新包括百万token上下文开源、KV cache大幅缩减、引入mHC强化残差连接和hybrid attention架构。

DeepSeek V4的训练数据量翻倍，V4-Flash和V4-Pro的训练数据分别达到32T和33T。

通过引入hybrid attention架构和mHC强化残差连接，DeepSeek V4显著提升了长文处理效率。

DeepSeek V4在标准推理benchmark上超越多款闭源模型，显示出开源模型的竞争力。

未来将继续探索新技术，关注长时程多轮任务和多模态应用，推动开源进程。

DeepSeek V4-Pro的参数为1.6万亿，V4-Flash的参数为2840亿。

🏷️