读完 DeepSeek-V4 技术报告：这次最值得看的，不是“更大”，而是“更省”

清竹茶馆博客 ·

读完 DeepSeek-V4 技术报告：这次最值得看的，不是“更大”，而是“更省”

💡 原文中文，约12500字，阅读约需30分钟。

📝

内容提要

DeepSeek-V4技术报告强调通过改进注意力机制和优化器，提高超长上下文处理效率，能够高效处理1M上下文，降低计算和缓存成本。模型在中文写作和白领任务中表现良好，但在复杂任务上仍需提升。整体目标是解决长上下文的成本问题，提供完整的技术方案。

🎯

关键要点

DeepSeek-V4技术的核心问题是如何高效处理超长上下文，尤其是1M tokens的上下文，降低计算和缓存成本。
V4模型在中文写作和白领任务中表现良好，但在复杂任务上仍需提升。
V4通过改进注意力机制（hybrid attention）和优化器（Muon）来提高模型的训练稳定性和收敛速度。
模型采用了Compressed Sparse Attention (CSA)和Heavily Compressed Attention (HCA)来处理长上下文，显著降低了计算和缓存需求。
DeepSeek-V4的训练过程分阶段进行，逐步扩展序列长度，以确保模型在稳定条件下成长。
报告强调了系统层面的工程化设计，包括高性能kernel、并行处理和KV缓存管理，以支持1M上下文的训练和部署。
DeepSeek-V4在中文功能写作和白领任务中表现出色，但在复杂约束和多轮写作任务上仍有改进空间。
模型的评估结果显示，DeepSeek-V4在多个任务上超过了现有的开源模型，但在推理能力上与最前沿模型仍有差距。

❓

延伸问答

DeepSeek-V4的主要创新点是什么？

DeepSeek-V4通过改进注意力机制和优化器，提升了超长上下文处理效率，特别是支持1M tokens的上下文，同时降低了计算和缓存成本。

DeepSeek-V4在中文写作任务中的表现如何？

DeepSeek-V4在中文功能写作中表现出色，胜率达到62.7%，但在复杂约束和多轮写作任务上仍有改进空间。

DeepSeek-V4如何处理超长上下文的计算成本？

DeepSeek-V4采用Compressed Sparse Attention (CSA)和Heavily Compressed Attention (HCA)来降低计算和缓存需求，从而高效处理超长上下文。

DeepSeek-V4的训练过程是怎样的？

DeepSeek-V4的训练过程分阶段进行，逐步扩展序列长度，以确保模型在稳定条件下成长，先使用dense attention，再引入sparse attention。

DeepSeek-V4在复杂任务上的表现如何？

尽管DeepSeek-V4在中文写作和白领任务中表现良好，但在复杂任务上仍需进一步提升。

DeepSeek-V4的系统设计有哪些工程化特点？

DeepSeek-V4强调系统层面的工程化设计，包括高性能kernel、并行处理和KV缓存管理，以支持1M上下文的训练和部署。

🏷️

继续阅读

面瘫恢复报告
文章记录了作者面瘫（贝尔麻痹）的治疗与恢复过程。经过住院治疗和口服药物，作者的右脸肌肉活动逐渐改善。尽管医生建议针灸，作者选择继续西医治疗，最终在一个月后...
JFrog报告回顾了供应链安全领域动荡的一年
2025年，软件供应链面临前所未有的安全挑战，AI的快速发展扩大了攻击面。JFrog报告显示，恶意活动激增451%。尽管97%的企业声称有治理措施，但实际...
融资700亿！DeepSeek Code真要来了，ACM金牌大神崔添翼挂帅
DeepSeek融资已达700亿元，专注于AI研究并推出Code产品。团队正在招聘与Agent Harness相关的职位，强调模型与工作系统的结合。新团队...
曾经的招聘独角兽拉勾网已申请破产还欠着UCloud超过147万元技术服务费
拉勾网申请破产，欠UCloud超过147万元技术服务费，运营主体已进入破产重整程序。拉勾网曾是互联网招聘领域的独角兽，但未能上市，创始人离职后由前程无忧接...
曾经的招聘独角兽拉勾网已申请破产还欠着UCloud超过147万元技术服务费
曾经的招聘网站拉勾网已申请破产，欠UCloud超过147万元技术服务费。拉勾网于2017年被前程无忧控股，因上市失败和创始人离职，现由前程无忧接管。破产重...
Safari技术预览版244发布说明
Safari技术预览版244于2026年5月21日发布，适用于macOS。此次更新包括WebKit的多项改进，解决了无障碍功能、动画、CSS、表单、HTM...