InfoQ ·

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

微软研究人员推出了BitNet b1.58 2B4T，这是首个使用1位权重原生训练的大型语言模型。该模型在计算成本和硬件需求上显著低于全精度模型，同时在多项任务上表现相当。BitNet通过自定义的BitLinear层和量化技术，减小了模型大小并提高了训练稳定性。此外，微软还开发了专用推理库bitnet.cpp，以支持1位模型的高效推理。未来将探索更先进的技术和多语言能力。

🎯

关键要点

微软研究人员推出了BitNet b1.58 2B4T，这是首个使用1位权重原生训练的大型语言模型。
BitNet在计算成本和硬件需求上显著低于全精度模型，同时在多项任务上表现相当。
该模型通过自定义的BitLinear层和量化技术减小了模型大小，提高了训练稳定性。
BitNet b1.58 2B4T在内存占用、延迟和能耗方面优于类似或更小的量化模型。
模型使用绝对均值量化方案，将权重映射为三元值，显著减少模型大小。
BitNet b1.58 2B4T结合了多种已建立的LLM技术，如平方ReLU激活函数和旋转位置嵌入。
训练过程中采用大规模预训练、监督微调和直接偏好优化等技术。
微软开发了专用推理库bitnet.cpp，以支持1位模型的高效推理。
未来研究方向包括训练更大的模型、增加多语言能力和多模态集成。

❓

延伸问答

BitNet b1.58 2B4T是什么类型的模型？

BitNet b1.58 2B4T是首个使用1位权重原生训练的大型语言模型。

BitNet与全精度模型相比有哪些优势？

BitNet在计算成本和硬件需求上显著低于全精度模型，同时在多项任务上表现相当。

BitNet是如何减小模型大小的？

BitNet通过自定义的BitLinear层和绝对均值量化方案，将权重映射为三元值，从而显著减少模型大小。

BitNet的训练过程使用了哪些技术？

BitNet的训练过程采用了大规模预训练、监督微调和直接偏好优化等技术。

微软为BitNet开发了什么专用推理库？

微软开发了专用推理库bitnet.cpp，以支持1位模型的高效推理。

未来BitNet的研究方向是什么？

未来研究方向包括训练更大的模型、增加多语言能力和多模态集成。

🏷️

继续阅读

CNCF项目中人工智能的现状：数据的初步分析
CNCF TAG开发者体验小组研究了人工智能对开源开发的影响。调查显示，近一半的参与者在日常工作中使用AI工具，主要用于代码编写、文档改进和代码理解。尽管...
MIT-IBM计算研究实验室启动，塑造人工智能与量子计算的未来
麻省理工学院与IBM成立MIT-IBM计算研究实验室，旨在推动人工智能、算法与量子计算的融合，开发新计算方法，提升AI与量子计算的应用，解决复杂问题，促进...
Vim 替代者？微软开源命令行编辑器 Edit 2.0.0 发布，新增语法高亮功能，大小不到 300kB
微软开源的命令行编辑器 Edit 2.0.0 版本新增语法高亮功能，支持多种编程语言，体积轻巧，适用于 Windows、Linux 和 macOS，提供查...
在日常设备上实现隐私保护的人工智能训练
麻省理工学院的研究人员开发了一种新方法，提升了联邦学习的效率，使其在资源有限的设备上更快地训练人工智能模型。该方法通过减少内存需求和通信负担，加速训练过程...
微软推出新型嵌入式 AI 代理，加速迈向“智能代理联络中心”
微软在Dynamics 365联系中心新增了三个AI代理：客户协助代理、质量保证代理和服务运营代理。这些代理利用数据和上下文推理，自动处理客户咨询、监控对...
将人工智能应用于公共部门的欺诈预防
公共部门正在利用人工智能（AI）来现代化运营和提升服务，特别是在应对新型犯罪威胁方面。通过Databricks，虚构的服务局实现了高效的欺诈调查流程，整合...