量子位 ·

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

OpenAI开源的新模型采用Circuit Sparsity技术，使99.9%的权重为零，提升了模型的可解释性。通过严格的连接约束，简化了计算过程，解决了传统模型的黑箱问题。尽管计算成本较高，但未来有望实现更复杂的推理。

🎯

🔎

Circuit Sparsity技术通过极致稀疏化模型，显著提升了可解释性，解决了传统模型的黑箱问题。然而，其高昂的计算成本使得目前在实际应用中仍面临挑战，尤其是在与成熟的MoE模型相比时，后者在算力效率上更具优势。

OpenAI计划将Circuit Sparsity技术扩展到更大规模的模型，以实现更复杂的推理能力。这一方向不仅有助于提升模型的性能，也可能推动AI可解释性研究的进一步发展，值得关注后续的技术进展。

与MoE模型相比，Circuit Sparsity在特征处理上更为精准，避免了信息干扰和功能边界模糊的问题。然而，MoE在算力效率和性能平衡上已相对成熟，短期内仍将是工业界的主流选择，用户需根据具体需求做出选择。

❓

Circuit Sparsity技术使99.9%的权重为零，通过严格约束模型内部连接，提升可解释性，解决黑箱问题。

Circuit Sparsity模型避免了MoE模型的特征流形割裂和专家功能边界模糊问题，实现了更精准的机制拆解。

Circuit Sparsity模型的训练和推理计算量是传统模型的100-1000倍，算力成本极高。

可以通过从密集模型提取稀疏电路或优化训练机制来提高训练效率。

Circuit Sparsity模型的权重L0范数极小，仅保留千分之一的有效通路。

未来计划将Circuit Sparsity技术扩展到更大模型，解锁更复杂的推理电路。

🏷️