量子位 ·

微软开源爆火1.58bit大模型推理框架！千亿参数模型量化后单CPU可跑，速度每秒5-7个token

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

微软开源了BitNet b1.58，一个1.58bit大模型推理框架。通过将参数量化为{-1, 0, 1}，大幅减少存储和计算需求，使千亿参数模型在单CPU上每秒处理5-7个token。该框架在ARM和x86 CPU上显著加速并降低能耗。虽然需要重新训练模型，但Huggingface已支持将现有模型微调到1.58bit。

🎯

关键要点

微软开源了1.58bit大模型推理框架BitNet b1.58。
该框架通过将参数量化为{-1, 0, 1}，显著减少存储和计算需求。
千亿参数模型在单CPU上每秒处理5-7个token，接近人类阅读速度。
bitnet.cpp是1bit LLM的官方推理框架，支持在CPU上进行快速推理。
在ARM CPU上，框架可实现1.37至5.07倍的加速，能耗降低55.4%至70.0%。
在x86 CPU上，加速效果介于2.37至6.17倍，能耗减少71.9%至82.2%。
BitNet b1.58模型的权重被量化为三元值，采用absmean量化函数。
该模型在架构设计上借鉴了Llama，使用了RMSNorm、SwiGLU等组件。
与Llama相比，BitNet b1.58在矩阵乘法方面节省了71.4倍的计算能耗。
Huggingface已支持将现有模型微调到1.58bit，降低了训练成本。

🏷️

继续阅读

微软将Xbox重新带回，取消微软游戏
微软将其游戏部门名称从“微软游戏”改回“Xbox”，以重塑品牌形象。Xbox首席执行官Asha Sharma表示，Xbox将成为公司的游戏身份，并承诺优先...
微软高管离职潮内幕
微软高管频繁离职，反映出公司在AI领域面临压力。多个部门如CoreAI、Windows和Office经历重大人事变动。为应对竞争加剧和股价下跌，微软调整员...
微软为长期服务员工提供自愿退休计划
微软首次为长期员工推出自愿退休计划，适用于服务年限与年龄总和达到70的员工。此举旨在避免未来裁员，并简化绩效奖励制度，以提升对高绩效员工的认可。
微软在Word、Excel和PowerPoint中推出‘氛围工作’
微软在Word、Excel和PowerPoint中推出了新的“代理模式”，这是Copilot体验的增强版，能够更好地执行命令和编辑，并实时展示操作步骤。该...
开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！
DeepSeek v4发布了Pro和Flash两个版本，分别拥有1.6T和284B参数，价格低至3.48美元和0.28美元。Pro版适合复杂任务，Flas...
OpenAI开源发布1.5B的隐私过滤模型可以精确识别文本中包含的个人隐私信息
OpenAI 发布了隐私过滤模型 Privacy Filter，能够精准识别并清除个人隐私信息，如姓名、电话和邮箱。该模型体积小，适合在普通设备上运行，并...

微软开源爆火1.58bit大模型推理框架！千亿参数模型量化后单CPU可跑，速度每秒5-7个token

内容提要

关键要点

标签

继续阅读