量子位 ·

微软1bit LLM新研究：原生4bit激活值量化，可充分利用新一代GPU对4bit计算的原生支持

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

微软推出BitNet v2框架，实现原生4bit激活值量化，充分利用新一代GPU计算能力，提升效率并减少内存带宽。通过H-BitLinear模块优化激活值分布，使低bit量化更有效。实验表明，4bit激活性能与8bit相当，部分任务表现更优。

🎯

关键要点

微软推出BitNet v2框架，实现原生4bit激活值量化，充分利用新一代GPU的计算能力。
新框架减少内存带宽并提升计算效率，解决了之前8-bit激活值的效率瓶颈问题。
引入H-BitLinear模块，通过Hadamard变换优化激活值分布，使低bit量化更有效。
实验表明，4bit激活性能与8bit相当，部分任务表现更优。
BitNet v2可以从8bit激活版本接着训练，性能损失基本可以忽略不计。
在不同模型规模上，BitNet v2的准确率普遍提高，尤其在7B规模上提升了0.61%。
低bit注意力状态实验显示，采用3bit KV缓存的BitNet v2在准确率上与全精度版本相当。
消融实验验证了Hadamard变换对低bit激活的重要性，未使用旋转变换则模型会发散。

❓

延伸问答

BitNet v2框架的主要创新是什么？

BitNet v2框架实现了原生4bit激活值量化，充分利用新一代GPU的计算能力。

H-BitLinear模块的作用是什么？

H-BitLinear模块通过Hadamard变换优化激活值分布，使低bit量化更有效。

4bit激活的性能与8bit激活相比如何？

实验表明，4bit激活性能与8bit相当，部分任务表现更优。

BitNet v2在不同模型规模上的表现如何？

在不同模型规模上，BitNet v2的准确率普遍提高，尤其在7B规模上提升了0.61%。

低bit注意力状态实验的结果如何？

采用3bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度版本相当的准确率。

BitNet v2如何解决8bit激活的效率瓶颈？

BitNet v2通过原生4bit激活值量化，减少内存带宽并提升计算效率，解决了效率瓶颈问题。

🏷️

继续阅读

微软的Xbox模式现已在所有Windows 11 PC上可用
微软已将Xbox模式推向所有Windows 11 PC，提供类似Steam大屏模式的全屏界面，旨在缩小Windows与Xbox主机之间的差距。用户需安装最...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
微软的DLSS竞争对手现已在Xbox Ally X手持设备上可用
微软正在测试其自动超分辨率（Auto SR）功能，旨在提升Xbox Ally X手持设备的游戏画质和帧率。该功能通过降低分辨率来提高帧率，并在大屏幕上提升...
微软与OpenAI新协议的详细解析
微软与OpenAI达成新协议，允许OpenAI在所有云平台上提供服务，尽管与亚马逊的合作令微软不满。协议取消了与人工通用智能（AGI）相关的条款，使双方关...
市场激活差距有解：Databricks与Stitch合作将数据基础设施转化为营销绩效
Databricks与Stitch合作，旨在缩小企业数据与市场营销之间的差距，帮助品牌更好地利用数据平台，实现实时数据驱动的营销决策。这一合作为企业提供了...
Jan Wieremjewicz：开源软件不会消亡，而是失去资金支持。
开源软件不会消亡，但可能失去资金支持。pgBackRest项目因维护者David Steele无法继续工作而被归档，尽管并非真正终止。开源项目的可持续性依...