量子位 ·

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

字节推出的UltraMem架构显著降低推理成本，最高可达83%。与MoE相比，推理速度提升2-6倍，克服了MoE和PKM的局限性。UltraMem通过优化模型结构和检索方式，实现更高效的访存和优质模型性能，展现出更强的扩展能力。

🎯

🔎

UltraMem架构通过优化模型结构和检索方式，显著提升了推理速度和效率。与传统的MoE和PKM相比，UltraMem在推理时仅激活少量的value，避免了访存瓶颈，适合在资源受限的环境中应用。

UltraMem架构的推理成本最高可降低83%，这对于需要高效计算的实时应用具有重要意义。企业在选择模型时，可以考虑UltraMem作为降低成本和提升性能的有效方案。

UltraMem在处理大规模模型时表现出更强的扩展能力，尤其是在稀疏参数增加的情况下，推理速度和效果保持稳定。这为未来开发更大规模的语言模型提供了新的可能性。

❓

UltraMem架构显著降低推理成本，最高可达83%，推理速度相比MoE提升2-6倍。

UltraMem通过拆分多个小memory layer和增加skip-layer操作，优化了访存效率和模型效果。

UltraMem克服了MoE的全专家激活问题和PKM的效果差、扩展能力有限的缺陷，提供了更高效的访存和优质的value检索。

UltraMem在680M和1.6B的激活参数上表现出显著的效果优势，推理速度几乎不变。

UltraMem引入了TDQKR方法，通过复杂的乘法方式提升了value检索的效率。

UltraMem采用了隐式扩展稀疏参数的方法IVE，通过引入virtual memory和physical memory来优化显存和部署成本。

🏷️