InfoQ ·

Kimi的K2开源语言模型支持动态资源可用性和新优化器

💡 原文英文，约900词，阅读约需3分钟。

📝

内容提要

Kimi发布了K2，一个拥有320亿参数的大型语言模型，采用新优化器MuonClip，解决了训练不稳定性。K2在推理和编程基准测试中表现优异，支持动态资源利用，具备高效推理能力，并在商业使用上有特定要求。

🎯

Kimi发布了K2，一个拥有320亿激活参数的大型语言模型，采用新优化器MuonClip，解决了训练不稳定性。
K2在推理和编程基准测试中表现优异，特别是在推理、编码和代理能力方面。
MuonClip通过QK-clip技术改善了模型的训练稳定性，避免了训练过程中的损失峰值。
K2模型在NVIDIA H800 GPU集群上训练，采用灵活的并行策略以应对动态资源可用性。
为管理内存使用，团队对特定操作应用了选择性重计算，减少了激活内存需求。
K2 Thinking能够执行200到300个顺序工具调用，采用思考-搜索-浏览-思考-编码的循环模式。
Kimi在推理效率方面进行了优化，采用量化感知训练（QAT）以提高生成速度。
Kimi K2的许可证要求商业使用必须在用户界面上显著显示“Kimi K2”的标识。
K2 Thinking在Apple Silicon上表现良好，证明了模型在数据中心基础设施之外的可访问性。
Kimi K2进入了竞争激烈的开源模型市场，包括DeepSeek-R1、阿里巴巴的Qwen模型、Mistral的Mixtral MoE系列和Meta的Llama 3系列。
K2 Thinking变体可在kimi.com和Moonshot API平台上获取，模型权重已在Hugging Face上发布。

❓

Kimi K2模型拥有320亿激活参数，采用新优化器MuonClip，解决了训练不稳定性，并在推理和编程基准测试中表现优异。

MuonClip通过QK-clip技术避免了训练过程中的损失峰值，从而提高了训练的稳定性。

Kimi对K2模型进行了量化感知训练（QAT），以提高生成速度并减少推理延迟。

商业使用必须在用户界面上显著显示“Kimi K2”的标识，特别是对于超过100万月活跃用户或每月收入超过2000万美元的产品。

K2 Thinking能够执行200到300个顺序工具调用，采用思考-搜索-浏览-思考-编码的循环模式，处理复杂问题。

Kimi K2进入了竞争激烈的开源模型市场，包括DeepSeek-R1、阿里巴巴的Qwen模型等，旨在展示强大的泛化能力。

🏷️