小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了DeepSeek-V3在扩展大型语言模型时的硬件限制，并提出了一种新颖的硬件感知模型设计方法。通过引入多头潜在注意力机制和FP8混合精度训练，DeepSeek-V3实现了高效的训练和推理，推动了下一代AI系统的发展。

In-Depth Exploration of DeepSeek-V3: Scaling Challenges and Hardware Reflections on AI Architectures

BriefGPT - AI 论文速递 ·

DeepSeek-R1通过多头潜在注意力机制（MLA）实现模型迁移，仅需原始数据的0.3%-0.6%。该研究由复旦大学等机构联合提出，MHA2MLA方法有效降低推理成本，同时保持模型性能，适用于多种大语言模型。

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

量子位 ·