💡 原文英文,约900词,阅读约需3分钟。
📝

内容提要

Kimi发布了K2,一个拥有320亿参数的大型语言模型,采用新优化器MuonClip,解决了训练不稳定性。K2在推理和编程基准测试中表现优异,支持动态资源利用,具备高效推理能力,并在商业使用上有特定要求。

🎯

关键要点

  • Kimi发布了K2,一个拥有320亿激活参数的大型语言模型,采用新优化器MuonClip,解决了训练不稳定性。
  • K2在推理和编程基准测试中表现优异,特别是在推理、编码和代理能力方面。
  • MuonClip通过QK-clip技术改善了模型的训练稳定性,避免了训练过程中的损失峰值。
  • K2模型在NVIDIA H800 GPU集群上训练,采用灵活的并行策略以应对动态资源可用性。
  • 为管理内存使用,团队对特定操作应用了选择性重计算,减少了激活内存需求。
  • K2 Thinking能够执行200到300个顺序工具调用,采用思考-搜索-浏览-思考-编码的循环模式。
  • Kimi在推理效率方面进行了优化,采用量化感知训练(QAT)以提高生成速度。
  • Kimi K2的许可证要求商业使用必须在用户界面上显著显示“Kimi K2”的标识。
  • K2 Thinking在Apple Silicon上表现良好,证明了模型在数据中心基础设施之外的可访问性。
  • Kimi K2进入了竞争激烈的开源模型市场,包括DeepSeek-R1、阿里巴巴的Qwen模型、Mistral的Mixtral MoE系列和Meta的Llama 3系列。
  • K2 Thinking变体可在kimi.com和Moonshot API平台上获取,模型权重已在Hugging Face上发布。
➡️

继续阅读