内容提要
JetBrains发布了Mellum2,这是一个开源的12B参数编码模型,专注于AI系统的基础设施层。Mellum2支持更广泛的任务,如模型协调和子代理工作负载,采用混合专家架构以提升推理速度。该模型在代码生成任务中表现优异,但在广泛推理和知识评估方面略逊于其他模型。目前已在Hugging Face上发布,企业可选择自我托管。
关键要点
-
JetBrains发布了Mellum2,这是一个开源的12B参数编码模型,专注于AI系统的基础设施层。
-
Mellum2支持更广泛的任务,如模型协调、子代理工作负载和私有部署。
-
与前身Mellum不同,Mellum2从一开始就是开源的,旨在处理更复杂的工程任务。
-
Mellum2采用混合专家架构,具有12B总参数,但每个token仅激活2.5B参数,以提高推理速度。
-
在代码生成任务中,Mellum2的表现优于其他模型,但在广泛推理和知识评估方面略逊于其他模型。
-
Mellum2提供了两种后训练变体:一种是直接回答的'instruct'版本,另一种是提供推理过程的'thinking'版本。
-
Mellum2的开放权重在Apache 2.0下发布,企业可以选择自我托管,增强对AI基础设施的控制。
-
JetBrains认为,部署灵活性和操作控制将是企业在软件工程工作流程中考虑的重要因素。
延伸问答
Mellum2的主要功能是什么?
Mellum2是一个开源的12B参数编码模型,专注于AI系统的基础设施层,支持模型协调和子代理工作负载等任务。
Mellum2与前身Mellum有什么不同?
Mellum2从一开始就是开源的,且支持更复杂的工程任务,而Mellum主要用于代码补全。
Mellum2采用了什么样的架构?
Mellum2采用混合专家架构,每个token仅激活2.5B参数,以提高推理速度。
Mellum2在代码生成任务中的表现如何?
在代码生成任务中,Mellum2的表现优于其他模型,得分为78.4%。
Mellum2的开放权重有什么意义?
Mellum2的开放权重在Apache 2.0下发布,企业可以选择自我托管,增强对AI基础设施的控制。
Mellum2的后训练变体有哪些?
Mellum2提供了'instruct'版本和'thinking'版本,分别用于直接回答和提供推理过程。