微软推出BitNet v2框架,实现原生4bit激活值量化,充分利用新一代GPU计算能力,提升效率并减少内存带宽。通过H-BitLinear模块优化激活值分布,使低bit量化更有效。实验表明,4bit激活性能与8bit相当,部分任务表现更优。
微软开源的三进制LLM BitNet b1.58 2B4T,参数达到2B,内存仅需0.4GB,能在单CPU上高效运行。该模型采用三元值{-1, 0, 1}存储权重,计算效率高,解码延迟仅29ms,能耗低至0.028J,性能优于同类模型。
北航与ETH等研究团队提出的BiDM方法将扩散模型完全量化至1比特,存储效率提升28倍,操作效率提升52.7倍。通过时间步友好的二值结构和空间分块蒸馏,BiDM在多个数据集上超越现有技术,特别是在LSUN-Bedrooms数据集上,FID分数降至22.74,显示出其在低资源场景中的应用潜力。
BitNet是一个支持在CPU上快速无损推理的1-bit大语言模型框架。安装步骤包括安装软件包、克隆代码库、创建虚拟环境并安装Python包。推理时可以通过命令行设置模型路径、提示和线程数等参数。
完成下面两步后,将自动完成登录并继续当前操作。