时隔六年再开源,OpenAI 发布两款语言模型,主打端侧场景

时隔六年再开源,OpenAI 发布两款语言模型,主打端侧场景

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

OpenAI于2025年发布了两款开源语言模型gpt-oss-120b和gpt-oss-20b,支持128k上下文,性能接近其商用模型。模型采用Transformer-MoE架构,具备强大的工具使用能力,并设立安全评估机制,标志着开源大模型领域的重要进展。

🎯

关键要点

  • OpenAI于2025年发布了两款开源语言模型gpt-oss-120b和gpt-oss-20b。

  • 这两款模型支持128k上下文,性能接近商用模型。

  • 模型采用Transformer-MoE架构,具备强大的工具使用能力。

  • gpt-oss-120b和gpt-oss-20b分别有116.8b和20.9b参数,支持长上下文和多种推理模式。

  • gpt-oss-120b在多个评测中与OpenAI商用模型表现相当,gpt-oss-20b在某些任务中表现优于gpt-o3-mini。

  • 模型使用了新的o200k_harmony分词器,训练数据主要集中在STEM和代码领域。

  • OpenAI首次公开了针对模型的恶意微调极限测试,结果显示模型在安全性方面仍有不足。

  • OpenAI设立了50万美元的奖金池,鼓励研究者发现新型安全问题。

  • 模型的生态系统覆盖云服务、推理框架和硬件厂商,支持多种部署方式。

  • gpt-oss的发布标志着开源大模型领域的重要进展,可能引发新一轮创新浪潮。

🔎

延伸解读

开源模型的技术优势

OpenAI发布的gpt-oss-120b和gpt-oss-20b模型采用了Transformer-MoE架构,支持128k的上下文长度,展现出强大的推理能力。这种设计不仅提高了模型的计算效率,还使得开发者能够在不同的推理模式之间灵活切换,适应多样化的应用场景。

安全性挑战与应对

尽管OpenAI在发布中强调了模型的安全评估机制,但恶意微调的测试结果显示,gpt-oss-120b在安全性方面仍存在不足。这提醒开发者在使用开源模型时,需关注潜在的安全风险,并积极参与OpenAI设立的安全挑战,以发现和解决新型安全问题。

生态系统的广泛支持

gpt-oss模型的发布不仅限于技术本身,还建立了一个覆盖云服务、推理框架和硬件厂商的生态系统。这种全链路的支持将有助于开发者更方便地进行模型部署和应用,推动开源大模型的广泛应用与创新。

延伸问答

OpenAI发布了哪两款开源语言模型?

OpenAI发布了gpt-oss-120b和gpt-oss-20b两款开源语言模型。

这两款模型的参数和上下文支持是什么?

gpt-oss-120b有116.8亿参数,gpt-oss-20b有20.9亿参数,均支持128k上下文。

gpt-oss-120b和gpt-oss-20b的性能如何?

gpt-oss-120b在多个评测中表现与OpenAI商用模型相当,gpt-oss-20b在某些任务中表现优于gpt-o3-mini。

这两款模型采用了什么架构?

这两款模型采用了Transformer-MoE架构。

OpenAI如何评估模型的安全性?

OpenAI首次公开了针对模型的恶意微调极限测试,并设立了50万美元的奖金池以鼓励研究者发现新型安全问题。

gpt-oss模型的生态系统包括哪些方面?

gpt-oss的生态系统覆盖云服务、推理框架和硬件厂商,支持多种部署方式。

🏷️

标签

➡️

继续阅读