机器之心 ·

DeepSeek的MLA，任意大模型都能轻松迁移了

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

复旦NLP实验室的纪焘博士后研究了如何高效地将基于多头自注意力（MHA）的大语言模型迁移至多头潜在注意力（MLA）架构，提出了MHA2MLA框架。该框架通过部分RoPE保留和低秩近似，显著降低推理成本，仅需0.3%至0.6%的预训练数据，兼容现有技术，为资源高效的LLMs部署提供新路径。

🎯

❓

MHA2MLA框架旨在高效地将基于多头自注意力的大语言模型迁移至多头潜在注意力架构。

通过部分RoPE保留和低秩近似，MHA2MLA框架显著降低推理成本，仅需0.3%至0.6%的预训练数据。

DeepSeek-R1的推理成本仅为同等性能大模型的数十分之一。

MHA2MLA框架的两个关键步骤是部分RoPE保留和键值联合表示低秩近似。

实验表明，MHA2MLA的微调数据量仅需预训练数据的0.3%至0.6%，并且性能损失较小。

未来的研究将扩展至更多基座，并结合参数高效微调策略，进一步降低参数更新规模。

🏷️

把大模型当成晶体管：从阻抗匹配到集成运放的思维实验
本文探讨了将大模型视为电子元件的思维实验，分析其性能与极限。通过类比电子工程中的放大器和阻抗匹配，提出差分、级联和反馈等方法来优化模型性能。文章指出，组合...
大模型内化的十年开源积累，正在补完 shadowsocks 的原始愿景
自2012年提出以来，Shadowsocks技术用户已能轻松自建，但非技术用户仍面临障碍。到2025-2026年，开源社区的贡献被大模型内化，降低了协议自...
用于编码代理的可维护性传感器
本文探讨了在AI生成代码背景下，如何利用传感器提高代码库的可维护性。作者分享了使用ESLint等静态分析工具的经验，强调监控维护性风险和自我修正的重要性。...
谷歌I/O 2026 直播博客：现场报道谷歌的主题演讲
谷歌I/O 2026大会将在加州举行，重点关注AI搜索、代理、编码和电子商务等未来趋势。谷歌需要突出Gemini，以与OpenAI的ChatGPT和Ant...
A free VPN you can trust, now built into Firefox
Update, May 19, 2026: Firefox’s free built-in VPN now supports location selec...
New in Firefox 151: VPN location selection, AI controls on mobile, and expanded Shake to Summarize support
Today, Firefox is rolling out updates across desktop and mobile that give you...