微软1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU对4bit计算的原生支持
内容提要
微软推出BitNet v2框架,实现原生4bit激活值量化,充分利用新一代GPU计算能力,提升效率并减少内存带宽。通过H-BitLinear模块优化激活值分布,使低bit量化更有效。实验表明,4bit激活性能与8bit相当,部分任务表现更优。
关键要点
-
微软推出BitNet v2框架,实现原生4bit激活值量化,充分利用新一代GPU的计算能力。
-
新框架减少内存带宽并提升计算效率,解决了之前8-bit激活值的效率瓶颈问题。
-
引入H-BitLinear模块,通过Hadamard变换优化激活值分布,使低bit量化更有效。
-
实验表明,4bit激活性能与8bit相当,部分任务表现更优。
-
BitNet v2可以从8bit激活版本接着训练,性能损失基本可以忽略不计。
-
在不同模型规模上,BitNet v2的准确率普遍提高,尤其在7B规模上提升了0.61%。
-
低bit注意力状态实验显示,采用3bit KV缓存的BitNet v2在准确率上与全精度版本相当。
-
消融实验验证了Hadamard变换对低bit激活的重要性,未使用旋转变换则模型会发散。
延伸问答
BitNet v2框架的主要创新是什么?
BitNet v2框架实现了原生4bit激活值量化,充分利用新一代GPU的计算能力。
H-BitLinear模块的作用是什么?
H-BitLinear模块通过Hadamard变换优化激活值分布,使低bit量化更有效。
4bit激活的性能与8bit激活相比如何?
实验表明,4bit激活性能与8bit相当,部分任务表现更优。
BitNet v2在不同模型规模上的表现如何?
在不同模型规模上,BitNet v2的准确率普遍提高,尤其在7B规模上提升了0.61%。
低bit注意力状态实验的结果如何?
采用3bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度版本相当的准确率。
BitNet v2如何解决8bit激活的效率瓶颈?
BitNet v2通过原生4bit激活值量化,减少内存带宽并提升计算效率,解决了效率瓶颈问题。