微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

微软开源的三进制LLM BitNet b1.58 2B4T,参数达到2B,内存仅需0.4GB,能在单CPU上高效运行。该模型采用三元值{-1, 0, 1}存储权重,计算效率高,解码延迟仅29ms,能耗低至0.028J,性能优于同类模型。

🎯

关键要点

  • 微软开源了2B参数规模的三进制LLM模型BitNet b1.58 2B4T,内存需求仅为0.4GB。
  • 该模型采用三元值{-1, 0, 1}存储权重,计算效率高,解码延迟为29ms,能耗低至0.028J。
  • BitNet b1.58 2B4T在苹果M2 CPU上能够快速运行,性能与同规模全精度模型相当。
  • 模型基于Transformer架构,采用absmean量化方案,内存占用显著降低。
  • 训练过程包括大规模预训练、监督微调和直接偏好优化,确保模型性能和稳定性。
  • 在数学推理和常识推理任务中,BitNet的准确率超越了同类模型。
  • BitNet b1.58 2B4T具有原生训练优势,避免了训练后量化模型的性能衰减。
  • 微软在1 bit LLM的研究上已有基础,开发了专用推理库以支持该模型的高效运行。

延伸问答

BitNet b1.58 2B4T模型的参数规模是多少?

该模型的参数规模为2B。

BitNet b1.58 2B4T在内存使用上有什么优势?

该模型仅需0.4GB内存,显著低于同类全精度模型的内存需求。

BitNet b1.58 2B4T的解码延迟是多少?

解码延迟为29ms。

BitNet b1.58 2B4T采用了什么样的权重存储方式?

该模型采用三元值{-1, 0, 1}存储权重。

BitNet b1.58 2B4T在数学推理任务中的表现如何?

在GSM8K数学推理任务中,BitNet的准确率为58.38,超越了同类模型。

微软在1 bit LLM的研究上有哪些基础?

微软早在2023年就有相关研究,并提出了BitNet模型。

➡️

继续阅读