微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
微软开源的三进制LLM BitNet b1.58 2B4T,参数达到2B,内存仅需0.4GB,能在单CPU上高效运行。该模型采用三元值{-1, 0, 1}存储权重,计算效率高,解码延迟仅29ms,能耗低至0.028J,性能优于同类模型。
🎯
关键要点
- 微软开源了2B参数规模的三进制LLM模型BitNet b1.58 2B4T,内存需求仅为0.4GB。
- 该模型采用三元值{-1, 0, 1}存储权重,计算效率高,解码延迟为29ms,能耗低至0.028J。
- BitNet b1.58 2B4T在苹果M2 CPU上能够快速运行,性能与同规模全精度模型相当。
- 模型基于Transformer架构,采用absmean量化方案,内存占用显著降低。
- 训练过程包括大规模预训练、监督微调和直接偏好优化,确保模型性能和稳定性。
- 在数学推理和常识推理任务中,BitNet的准确率超越了同类模型。
- BitNet b1.58 2B4T具有原生训练优势,避免了训练后量化模型的性能衰减。
- 微软在1 bit LLM的研究上已有基础,开发了专用推理库以支持该模型的高效运行。
❓
延伸问答
BitNet b1.58 2B4T模型的参数规模是多少?
该模型的参数规模为2B。
BitNet b1.58 2B4T在内存使用上有什么优势?
该模型仅需0.4GB内存,显著低于同类全精度模型的内存需求。
BitNet b1.58 2B4T的解码延迟是多少?
解码延迟为29ms。
BitNet b1.58 2B4T采用了什么样的权重存储方式?
该模型采用三元值{-1, 0, 1}存储权重。
BitNet b1.58 2B4T在数学推理任务中的表现如何?
在GSM8K数学推理任务中,BitNet的准确率为58.38,超越了同类模型。
微软在1 bit LLM的研究上有哪些基础?
微软早在2023年就有相关研究,并提出了BitNet模型。
➡️