微软1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU对4bit计算的原生支持

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

微软推出BitNet v2框架,实现原生4bit激活值量化,充分利用新一代GPU计算能力,提升效率并减少内存带宽。通过H-BitLinear模块优化激活值分布,使低bit量化更有效。实验表明,4bit激活性能与8bit相当,部分任务表现更优。

🎯

关键要点

  • 微软推出BitNet v2框架,实现原生4bit激活值量化,充分利用新一代GPU的计算能力。
  • 新框架减少内存带宽并提升计算效率,解决了之前8-bit激活值的效率瓶颈问题。
  • 引入H-BitLinear模块,通过Hadamard变换优化激活值分布,使低bit量化更有效。
  • 实验表明,4bit激活性能与8bit相当,部分任务表现更优。
  • BitNet v2可以从8bit激活版本接着训练,性能损失基本可以忽略不计。
  • 在不同模型规模上,BitNet v2的准确率普遍提高,尤其在7B规模上提升了0.61%。
  • 低bit注意力状态实验显示,采用3bit KV缓存的BitNet v2在准确率上与全精度版本相当。
  • 消融实验验证了Hadamard变换对低bit激活的重要性,未使用旋转变换则模型会发散。

延伸问答

BitNet v2框架的主要创新是什么?

BitNet v2框架实现了原生4bit激活值量化,充分利用新一代GPU的计算能力。

H-BitLinear模块的作用是什么?

H-BitLinear模块通过Hadamard变换优化激活值分布,使低bit量化更有效。

4bit激活的性能与8bit激活相比如何?

实验表明,4bit激活性能与8bit相当,部分任务表现更优。

BitNet v2在不同模型规模上的表现如何?

在不同模型规模上,BitNet v2的准确率普遍提高,尤其在7B规模上提升了0.61%。

低bit注意力状态实验的结果如何?

采用3bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度版本相当的准确率。

BitNet v2如何解决8bit激活的效率瓶颈?

BitNet v2通过原生4bit激活值量化,减少内存带宽并提升计算效率,解决了效率瓶颈问题。

➡️

继续阅读