云原生 ·

大模型时代的开源：从开放代码到开放权重的演进

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

真正的开源应具备可重现、可验证和可共创的特性，而不仅仅是可下载。在AI时代，许多模型虽然开放权重，但未公开训练数据和代码，导致“开源”与“开放权重”之间存在差异。传统开源强调源码的完整性和可重现性，而AI时代则更注重权重的开放性和可验证性。

🎯

🔎

在AI时代，开源的定义已发生变化。传统开源强调源代码的完整性和可重现性，而开放权重模型则更注重模型权重的开放性和可验证性。这意味着，虽然许多模型声称是开源，但实际上它们并未完全公开训练数据和代码，导致用户在使用时可能面临不完全透明的风险。

开放权重模型虽然不符合传统开源的严格定义，但在AI社区中形成了共识，认为只要模型权重可下载、可运行，就具备开源精神。这种做法促进了研究复现、生态繁荣和技术普惠，使得中小企业也能利用强大的AI模型，推动了技术的广泛应用。

开放权重模型通常不公开训练数据，这可能影响模型的可验证性和再训练能力。用户在选择和使用这些模型时，应关注训练数据的来源和质量，以确保模型的可靠性和适用性。对训练数据的透明性要求，仍是未来开源发展的重要方向。

❓

开放权重模型是指开放模型权重、结构、推理代码和论文，但未开放训练数据与训练过程的模型。

传统开源强调源码的完整性和可重现性，而开放权重模型则主要开放模型权重，缺乏训练数据和代码的公开。

许多AI模型虽然开放权重，但未公开训练数据和训练代码，导致它们与传统开源的定义存在差异。

开放权重模型的价值体现在研究复现、生态繁荣、技术普惠和透明审计等方面。

AI时代的开源定义强调权重开放和可验证，促进生态共创，而非单纯的源码开放。

开放权重模型不符合OSI的严格开源标准，因为它缺乏代码的完整性和训练数据的公开性。

🏷️