The JetBrains Blog ·

Mellum2 开源：一个快速的 AI 工作流模型

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Mellum2是一个开源的12B模型，专为AI工作流设计，旨在解决生产AI中的延迟、吞吐量和成本问题。它专注于自然语言和代码，适用于软件工程环境，支持低延迟的AI任务路由、快速摘要和本地部署，以提高效率并降低计算成本。

🎯

🔎

Mellum2采用Mixture-of-Experts（MoE）设计，虽然总参数量达到12B，但每个token仅激活2.5B参数。这种设计显著降低了计算成本，同时提高了推理的吞吐量和响应速度，适合实时工作负载。对于需要高效处理的生产环境，Mellum2提供了一个理想的解决方案。

Mellum2专注于自然语言和代码数据，确保在软件工程环境中表现优异。与许多多模态模型不同，它的专一性使其在特定任务中更具效率，适合用于代码生成、问答和任务路由等场景。用户可以利用这一点来优化工作流程。

Mellum2支持本地部署，用户可以完全控制代码和数据。这对于需要保护敏感信息或希望避免云计算成本的企业尤为重要。通过本地运行，用户可以根据自身需求进行定制和优化，提升工作效率。

❓

Mellum2是一个开源的12B模型，专为解决生产AI中的延迟、吞吐量和成本问题而设计，采用Mixture-of-Experts架构，只有2.5B参数在每个token上激活。

Mellum2适用于路由和协调AI工作负载、构建低延迟的RAG管道、快速子代理的执行以及本地部署以保持数据控制。

通过Mixture-of-Experts设计，Mellum2在每个token上只激活2.5B参数，从而降低计算成本并实现高吞吐量和低延迟推理。

Mellum2在推理时间上减少到一半，具有更高的吞吐量和更低的延迟，适合生产级部署。

Mellum2专注于自然语言和代码数据，确保在软件工程环境中表现出色。

Mellum2在Apache 2.0许可证下发布，允许用户自由使用和修改。

🏷️