量子位 ·

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能，算力和存储需求分别减少97%和90%。该方法无需反向传播，通过随机性生成梯度估计，适合分布式训练，提升效率。

🎯

关键要点

新技术'noise_step'允许在1.58-bit低精度下训练GPT-3模型，算力需求减少97%，存储需求减少90%。
该方法无需反向传播，通过随机性生成梯度估计，适合分布式训练，提升效率。
noise_step的核心在于允许模型直接在低精度下训练，而不需要传统的反向传播或动量方法。
使用noise_step可以减少存储需求，因为不需要存储大量的扰动向量。
训练步骤可以存储而非权重，可能大幅缩小模型尺寸，提升下载速度。
该方法允许对过去的训练步骤进行编辑，提高训练过程的控制和调整能力。
在分布式训练中，noise_step显著降低了通信量，提高了训练效率。
作者在分享论文时遇到arXiv拒绝的问题，现将论文放在GitHub上供人查看。

❓

延伸问答

什么是noise_step技术？

noise_step是一种新技术，允许在1.58-bit低精度下训练模型，减少算力和存储需求，且无需反向传播。

使用noise_step技术的优势是什么？

使用noise_step可以减少97%的算力需求和90%的存储需求，同时提高训练效率和控制能力。

noise_step如何影响分布式训练？

noise_step通过减少每个扰动所需的位数，显著降低了通信量，从而提高了分布式训练的效率。

为什么不需要反向传播？

noise_step通过引入随机性生成梯度估计，允许模型直接在低精度下训练，因此不需要传统的反向传播。

该技术如何影响模型的存储需求？

由于不需要存储大量的扰动向量，noise_step可以大幅减少模型的存储需求，甚至使GPT-3模型只需20MB。

论文为何被arXiv拒绝？

论文被arXiv拒绝是因为缺乏背书，作者最终将其放在GitHub上供人查看。

🏷️

继续阅读

GPT Realtime 2.0实时语音模型17个创业方向
GPT Realtime 2.0模型实现了边听边思考的实时智能应用，提供了17个创业机会，如实时合同谈判助手、语音控制交易终端和多语种活动主持人。这些应用...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
特朗普签署行政命令，要求在发布前审查人工智能模型
特朗普签署行政命令，要求AI公司在发布前自愿向政府分享其模型，以促进安全创新并增强网络安全。该命令强调AI行业的成功与创新不应受到过度监管，同时承认新技术...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用
亚马逊云科技宣布，GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线，企业可直接调用这些大模型以支持复杂任务，计费标准与Ope...