原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

💡 原文中文,约4700字,阅读约需12分钟。
📝

内容提要

xLSTM 7B 是一种新型循环语言模型,采用 mLSTM 单元,优化了计算效率和内存占用。其改进的架构显著提升了推理速度和吞吐量,成为最快、最高效的 7B 模型。与传统 Transformer 相比,xLSTM 在长文本处理和生成效率上表现更佳,适合边缘设备应用。

🎯

关键要点

  • xLSTM 7B 是一种新型循环语言模型,采用 mLSTM 单元,优化了计算效率和内存占用。
  • xLSTM 7B 在推理速度和吞吐量上表现优异,成为最快、最高效的 7B 模型。
  • 与传统 Transformer 相比,xLSTM 在长文本处理和生成效率上表现更佳,适合边缘设备应用。
  • xLSTM 7B 模型基于 DCLM 数据集,使用 128 块 H100 GPU 训练了 2.3 万亿 token。
  • 通过优化架构,xLSTM 7B 的 token 吞吐量提高了 2 到 4 倍,同时保持了相似的任务性能。
  • xLSTM 7B 在推理效率测试中实现了最高的预填充和生成吞吐量,且 GPU 内存占用最低。
  • xLSTM 7B 的核心是 mLSTM 单元,采用循环和并行模式实现高效训练和推理。
  • 研究者通过优化 mLSTM 块解决了计算效率问题,显著减少了 GPU 内存使用量。
  • 优化措施包括使用 RMSNorm 替代 LayerNorm,实施门控软上限限制,负输入门偏置初始化。
  • xLSTM 7B 在长文本处理能力上表现优异,尤其在长文本降温阶段提升了性能。
  • 在生成吞吐量方面,xLSTM 7B 比 Mamba 快约 50%,并在内存占用和生成时间上表现更好。
  • xLSTM 7B 在处理各种长度的预填充内容时,均表现出最快的响应速度。

延伸问答

xLSTM 7B 模型的主要特点是什么?

xLSTM 7B 是一种新型循环语言模型,采用 mLSTM 单元,优化了计算效率和内存占用,推理速度和吞吐量表现优异。

xLSTM 7B 如何提高推理速度和吞吐量?

通过优化架构和使用 mLSTM 单元,xLSTM 7B 的 token 吞吐量提高了 2 到 4 倍,同时保持了相似的任务性能。

与传统 Transformer 模型相比,xLSTM 7B 有何优势?

xLSTM 7B 在长文本处理和生成效率上表现更佳,适合边缘设备应用,且在推理效率上显著优于 Transformer。

xLSTM 7B 的训练过程使用了哪些技术?

xLSTM 7B 使用了 128 块 H100 GPU 训练了 2.3 万亿 token,并通过优化 mLSTM 块和门控机制提高了训练效率和稳定性。

xLSTM 7B 在长文本处理方面的表现如何?

xLSTM 7B 在长文本降温阶段表现优异,能够处理长达 131K 的上下文长度,平均准确率达到 20%。

xLSTM 7B 的开源信息是什么?

xLSTM 7B 的权重和代码均已开源,代码可在 GitHub 上找到,论文也已发布。

➡️

继续阅读