机器之心 ·

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

微软的研究提出了一种名为MInference的稀疏计算方法，可以加速长上下文语言模型（LLM）的预填充阶段，无需修改预训练设置或额外微调，同时保持准确性。MInference通过动态稀疏注意力计算和优化的GPU内核，在单个A100上实现了10倍的推理速度提升。实验结果表明MInference在各种任务和模型下都表现良好。

🎯

关键要点

微软提出了一种名为MInference的稀疏计算方法，能够加速长上下文语言模型的预填充阶段。
MInference在单个A100上实现了10倍的推理速度提升，且无需修改预训练设置或额外微调。
长上下文语言模型的上下文窗口从128K增加到10M，但处理时间过长影响用户体验。
自注意力计算的开销占总预填充延迟的90%以上，是长上下文LLM的主要瓶颈。
MInference可直接应用于现有LLM，实验证明其在多种任务和模型下有效降低推理延迟。
MInference使用动态稀疏注意力计算和优化的GPU内核，保持了准确性。
MInference的动态稀疏性呈现出三种模式：A形、垂直-斜线和块状-稀疏。
在长上下文基准测试中，MInference在多种任务中表现良好，保持了LLM的实际上下文窗口处理能力。
MInference在处理动态KV对检索任务时表现出色，成功保留了处理能力。
不同上下文长度和提示信息位置下，MInference的性能保持不变或略有提高。

❓

延伸问答

MInference是什么？

MInference是一种稀疏计算方法，旨在加速长上下文语言模型的预填充阶段，能够在单个A100上实现10倍的推理速度提升。

MInference如何提高推理速度？

MInference通过动态稀疏注意力计算和优化的GPU内核，显著降低了长上下文LLM的预填充延迟。

MInference在不同任务中的表现如何？

实验表明，MInference在多种任务和模型下有效降低推理延迟，同时保持准确性，尤其在复杂的检索任务中表现出色。

MInference是否需要对现有模型进行修改？

不需要，MInference可以直接应用于现有的长上下文语言模型，无需修改预训练设置或额外微调。

MInference的动态稀疏性有哪些模式？

MInference的动态稀疏性呈现出三种模式：A形、垂直-斜线和块状-稀疏。

MInference在处理长上下文时的优势是什么？

MInference有效保留了LLM的实际上下文窗口处理能力，并在高达1M的上下文窗口中实现了良好的性能。

🏷️