OpenAI ·

介绍 gpt-oss

💡 原文英文，约2600词，阅读约需10分钟。

📝

内容提要

gpt-oss-120b和gpt-oss-20b是两个开源语言模型，具备强大的推理和工具使用能力，适合低成本部署。它们在多个基准测试中表现优异，支持高效推理和定制化，旨在推动安全透明的AI发展，降低小型组织的使用门槛。

🎯

关键要点

gpt-oss-120b和gpt-oss-20b是两个开源语言模型，具有强大的推理和工具使用能力，适合低成本部署。
这两个模型在多个基准测试中表现优异，支持高效推理和定制化，旨在推动安全透明的AI发展。
gpt-oss-120b在核心推理基准上与OpenAI o4-mini几乎持平，适合在单个80GB GPU上运行。
gpt-oss-20b在常见基准测试中表现与OpenAI o3-mini相似，适合在仅需16GB内存的边缘设备上运行。
这两个模型在工具使用、少量示例调用和链式推理方面表现强劲，甚至在HealthBench上超越了OpenAI的专有模型。
模型经过全面的安全培训和评估，确保开放模型的安全性，符合OpenAI的安全标准。
gpt-oss模型的训练方法经过外部专家审查，标志着开放权重模型安全标准的新进展。
gpt-oss模型采用混合专家（MoE）架构，gpt-oss-120b每个token激活5.1B参数，gpt-oss-20b激活3.6B参数。
模型在训练过程中使用了以英语为主的文本数据集，重点关注STEM、编码和一般知识。
gpt-oss模型支持低、中、高三种推理努力，开发者可以根据需求轻松设置推理努力。
gpt-oss模型在编码、竞赛数学、健康和工具使用等标准学术基准上表现优异。
gpt-oss模型的权重可在Hugging Face上免费下载，支持在多种硬件上运行。
开放模型的发布降低了新兴市场和资源有限部门的使用门槛，促进了AI的民主化发展。
我们鼓励开发者和研究人员使用这些模型进行实验和合作，推动AI的创新和发展。

🔎

延伸解读

模型的安全性与透明性

gpt-oss模型在发布前经过全面的安全培训和评估，确保其符合OpenAI的安全标准。这一过程不仅提高了模型的安全性，也为开放模型设定了新的安全标准。开发者在使用这些模型时，应关注其安全性和潜在的误用风险，尤其是在敏感领域的应用。

低成本部署的优势

gpt-oss-120b和gpt-oss-20b模型的设计使其能够在低成本的硬件上高效运行，特别适合资源有限的小型组织和新兴市场。这种低门槛的部署方式，能够促进AI技术的普及和应用，推动更多创新和发展。

多样化的应用场景

这两个模型在推理、工具使用和少量示例调用等方面表现出色，适用于多种应用场景，如编码、健康查询和数学竞赛等。开发者可以根据具体需求调整推理努力，灵活应对不同的任务要求。

❓

延伸问答

gpt-oss-120b和gpt-oss-20b的主要特点是什么？

这两个模型是开源语言模型，具备强大的推理和工具使用能力，适合低成本部署，并在多个基准测试中表现优异。

gpt-oss-120b和gpt-oss-20b适合在哪些设备上运行？

gpt-oss-120b适合在单个80GB GPU上运行，而gpt-oss-20b可以在仅需16GB内存的边缘设备上运行。

gpt-oss模型在安全性方面有哪些措施？

模型经过全面的安全培训和评估，确保符合OpenAI的安全标准，并进行了额外的对抗性微调测试。

gpt-oss模型的训练方法有什么特点？

模型采用混合专家架构，使用以英语为主的文本数据集，重点关注STEM、编码和一般知识。

gpt-oss模型如何支持定制化？

模型是完全可定制的，开发者可以根据需求设置推理努力，并支持多种推理模式。

gpt-oss模型的开放发布有什么意义？

开放发布降低了新兴市场和资源有限部门的使用门槛，促进了AI的民主化发展，帮助更多人创新和创造机会。

🏷️