DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

复旦NLP实验室的纪焘博士后研究了如何高效地将基于多头自注意力(MHA)的大语言模型迁移至多头潜在注意力(MLA)架构,提出了MHA2MLA框架。该框架通过部分RoPE保留和低秩近似,显著降低推理成本,仅需0.3%至0.6%的预训练数据,兼容现有技术,为资源高效的LLMs部署提供新路径。

🎯

关键要点

  • 复旦NLP实验室的纪焘博士后提出MHA2MLA框架,旨在高效迁移大语言模型至多头潜在注意力架构。

  • MHA2MLA框架通过部分RoPE保留和低秩近似,显著降低推理成本,仅需0.3%至0.6%的预训练数据。

  • DeepSeek-R1是AI产业颠覆式创新的代表,其推理成本仅为同等性能大模型的数十分之一。

  • 现有主流大模型仍基于标准注意力架构,推理成本较MLA显著劣势。

  • MHA2MLA框架通过两个关键步骤成功将任意MHA/GQA架构迁移到MLA。

  • 部分RoPE保留策略通过移除RoPE并转换为NoPE解决了MLA与RoPE的冲突。

  • 消融实验表明,保留高频位置信息对模型性能影响较小,选择S_{2-norm}作为默认配置。

  • MHA2MLA通过低秩近似减少缓存空间,提出SVD_split和SVD_joint两种投影矩阵初始化策略。

  • 实验结果显示,MHA2MLA的微调数据量仅需预训练数据的0.3%至0.6%,避免了高昂的从头预训练成本。

  • MHA2MLA展现出与现有压缩技术的强兼容性,同时保持常识推理和长上下文处理能力。

  • 未来工作将扩展至更多基座,并结合参数高效微调策略,进一步降低参数更新规模。

延伸问答

MHA2MLA框架的主要目标是什么?

MHA2MLA框架旨在高效地将基于多头自注意力的大语言模型迁移至多头潜在注意力架构。

MHA2MLA框架如何降低推理成本?

通过部分RoPE保留和低秩近似,MHA2MLA框架显著降低推理成本,仅需0.3%至0.6%的预训练数据。

DeepSeek-R1的推理成本与其他大模型相比如何?

DeepSeek-R1的推理成本仅为同等性能大模型的数十分之一。

MHA2MLA框架的两个关键步骤是什么?

MHA2MLA框架的两个关键步骤是部分RoPE保留和键值联合表示低秩近似。

MHA2MLA框架在实验中表现如何?

实验表明,MHA2MLA的微调数据量仅需预训练数据的0.3%至0.6%,并且性能损失较小。

未来的研究方向是什么?

未来的研究将扩展至更多基座,并结合参数高效微调策略,进一步降低参数更新规模。

➡️

继续阅读