一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA
原文中文,约3600字,阅读约需9分钟。发表于: 。成就本文有以下三个因素校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的目前团队项目上的事情太多,然后近期在写那个KAN确实还没来得及看这个deepseek,我近期看下而搞之前——近几天,会先写一下它的论文解读,故本文就来了且一如既往做到,对于几乎每一个主题,都做到本博客万千读者或七月学员所说的:“还是...
本文介绍了DeepSeek-V2中的MHA创新点,包括MLA降低KV Cache开销,FFN结构改为DeepseekMoE,以及MLA对Query和Key的压缩和RoPE编码。