0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源

💡 原文中文,约12900字,阅读约需31分钟。
📝

内容提要

清华大学与面壁智能团队推出的MiniCPM 4模型,提供0.5B和8B参数规模,训练开销仅为22%。该模型在长文本处理上实现5倍加速,采用稀疏注意力架构,性能超越多款同类模型,适合端侧设备,具备高效推理能力。

🎯

关键要点

  • 清华大学与面壁智能推出MiniCPM 4模型,提供0.5B和8B参数规模。
  • MiniCPM 4的训练开销仅为22%,在长文本处理上实现5倍加速。
  • 该模型采用稀疏注意力架构,性能超越多款同类模型,适合端侧设备。
  • MiniCPM4-8B是首个开源的原生稀疏模型,具有5%的极高稀疏度。
  • 在多个基准测试中,MiniCPM4的性能与Qwen-3-8B相当,超越Gemma-3-12B。
  • MiniCPM4-0.5B在性能上也展现出以小博大的优势,超越同级模型。
  • 在Jetson AGX Orin与RTX 4090上,MiniCPM 4可实现长文本处理的5倍常规加速。
  • 模型架构采用InfLLM v2原生稀疏注意力模型,解决了长文本处理的计算和存储挑战。
  • MiniCPM4设计了一种可训练的稀疏注意力InfLLM v2,降低计算和内存访问成本。
  • 团队开发了轻量化高效的CUDA推理框架CPM.cu,优化了端侧设备的推理速度。
  • FR-Spec技术通过词表剪枝提高了草稿模型的推理效率,降低计算开销。
  • P-GPTQ方法实现了前缀敏感的模型量化,显著减少了性能退化。
  • MiniCPM4在数据筛选和合成方面进行了创新,提升了模型的能力密度。
  • UltraClean方法通过高效的数据验证策略筛选出高质量的预训练数据。
  • MiniCPM4-Survey系统能够高效生成结构清晰、内容可信的长篇综述。
  • MiniCPM4-MCP模型具备理解MCP协议、调用各类工具的能力,适用于智能体系统。

延伸问答

MiniCPM 4模型的参数规模有哪些?

MiniCPM 4模型提供0.5B和8B两种参数规模。

MiniCPM 4在长文本处理上实现了怎样的加速?

MiniCPM 4在长文本处理上实现了5倍的常规加速。

MiniCPM 4采用了什么样的模型架构?

MiniCPM 4采用了InfLLM v2原生稀疏注意力模型架构。

MiniCPM 4如何降低计算和内存访问成本?

MiniCPM 4通过设计可训练的稀疏注意力InfLLM v2来降低计算和内存访问成本。

MiniCPM 4在基准测试中的表现如何?

MiniCPM 4在多个基准测试中表现优异,性能比肩Qwen-3-8B,超越Gemma-3-12B。

MiniCPM 4的推理框架有什么特点?

MiniCPM 4的推理框架CPM.cu是轻量化高效的CUDA推理框架,专为端侧设备优化。

➡️

继续阅读