原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

机器之心 ·

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

xLSTM 7B 是一种新型循环语言模型，采用 mLSTM 单元，优化了计算效率和内存占用。其改进的架构显著提升了推理速度和吞吐量，成为最快、最高效的 7B 模型。与传统 Transformer 相比，xLSTM 在长文本处理和生成效率上表现更佳，适合边缘设备应用。

🎯

关键要点

xLSTM 7B 是一种新型循环语言模型，采用 mLSTM 单元，优化了计算效率和内存占用。
xLSTM 7B 在推理速度和吞吐量上表现优异，成为最快、最高效的 7B 模型。
与传统 Transformer 相比，xLSTM 在长文本处理和生成效率上表现更佳，适合边缘设备应用。
xLSTM 7B 模型基于 DCLM 数据集，使用 128 块 H100 GPU 训练了 2.3 万亿 token。
通过优化架构，xLSTM 7B 的 token 吞吐量提高了 2 到 4 倍，同时保持了相似的任务性能。
xLSTM 7B 在推理效率测试中实现了最高的预填充和生成吞吐量，且 GPU 内存占用最低。
xLSTM 7B 的核心是 mLSTM 单元，采用循环和并行模式实现高效训练和推理。
研究者通过优化 mLSTM 块解决了计算效率问题，显著减少了 GPU 内存使用量。
优化措施包括使用 RMSNorm 替代 LayerNorm，实施门控软上限限制，负输入门偏置初始化。
xLSTM 7B 在长文本处理能力上表现优异，尤其在长文本降温阶段提升了性能。
在生成吞吐量方面，xLSTM 7B 比 Mamba 快约 50%，并在内存占用和生成时间上表现更好。
xLSTM 7B 在处理各种长度的预填充内容时，均表现出最快的响应速度。

❓

延伸问答

xLSTM 7B 模型的主要特点是什么？

xLSTM 7B 是一种新型循环语言模型，采用 mLSTM 单元，优化了计算效率和内存占用，推理速度和吞吐量表现优异。

xLSTM 7B 如何提高推理速度和吞吐量？

通过优化架构和使用 mLSTM 单元，xLSTM 7B 的 token 吞吐量提高了 2 到 4 倍，同时保持了相似的任务性能。

与传统 Transformer 模型相比，xLSTM 7B 有何优势？

xLSTM 7B 在长文本处理和生成效率上表现更佳，适合边缘设备应用，且在推理效率上显著优于 Transformer。

xLSTM 7B 的训练过程使用了哪些技术？

xLSTM 7B 使用了 128 块 H100 GPU 训练了 2.3 万亿 token，并通过优化 mLSTM 块和门控机制提高了训练效率和稳定性。

xLSTM 7B 在长文本处理方面的表现如何？

xLSTM 7B 在长文本降温阶段表现优异，能够处理长达 131K 的上下文长度，平均准确率达到 20%。

xLSTM 7B 的开源信息是什么？

xLSTM 7B 的权重和代码均已开源，代码可在 GitHub 上找到，论文也已发布。

🏷️

继续阅读

慢工出细活：用AI以更慢的速度编写更好的代码
本文探讨了通过多个AI模型慢速编写高质量代码的重要性，强调质量优于速度。多模型审查可以减少假警报，准确识别漏洞并按严重程度分类修复。作者建议开发者放慢节奏...
刚刚，国产Agent模型闯入全球第一梯队！限时免费
昆仑万维推出的SkyClaw-v1.0和轻量版SkyClaw-v1.0-lite模型性能优越且价格低廉，适配多种主流Agent框架。SkyClaw系列专注...
如何提高编译速度？
该项目是一个基于Rust的前后端一体的后台管理系统，开发者尝试拆分项目以提高编译速度，但无论如何拆分，编译速度依然很慢。项目包含约5500行Rust代码和...
音视频 AI 模型进阶与实践指南
本文介绍音视频AI模型的进阶与实践，适合初级开发者。推荐使用YAMNet进行音频分类和Silero VAD进行语音活动检测，视频领域则推荐YOLO模型用于...
Bun用Rust重写但没人读代码：Electrobun 2.0放弃Bun并坚持人工审核代码
Electrobun 2.0决定不再依赖Bun，因为Bun使用AI重写代码且未经过人工审核，导致信任危机。开发者Yoav强调代码必须经过审核以确保安全。此...
Grok 1.5T参数版新模型将在2~3周内发布利用Cursor真实数据大幅度提高编码能力
埃隆·马斯克透露，xAI将在未来2~3周发布新模型Grok V9-Medium，参数达到1.5万亿，显著提升编程能力。新模型整合了Cursor AI的开发...