量子位 ·

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

💡 原文中文，约12900字，阅读约需31分钟。

📝

内容提要

清华大学与面壁智能团队推出的MiniCPM 4模型，提供0.5B和8B参数规模，训练开销仅为22%。该模型在长文本处理上实现5倍加速，采用稀疏注意力架构，性能超越多款同类模型，适合端侧设备，具备高效推理能力。

🎯

关键要点

清华大学与面壁智能推出MiniCPM 4模型，提供0.5B和8B参数规模。
MiniCPM 4的训练开销仅为22%，在长文本处理上实现5倍加速。
该模型采用稀疏注意力架构，性能超越多款同类模型，适合端侧设备。
MiniCPM4-8B是首个开源的原生稀疏模型，具有5%的极高稀疏度。
在多个基准测试中，MiniCPM4的性能与Qwen-3-8B相当，超越Gemma-3-12B。
MiniCPM4-0.5B在性能上也展现出以小博大的优势，超越同级模型。
在Jetson AGX Orin与RTX 4090上，MiniCPM 4可实现长文本处理的5倍常规加速。
模型架构采用InfLLM v2原生稀疏注意力模型，解决了长文本处理的计算和存储挑战。
MiniCPM4设计了一种可训练的稀疏注意力InfLLM v2，降低计算和内存访问成本。
团队开发了轻量化高效的CUDA推理框架CPM.cu，优化了端侧设备的推理速度。
FR-Spec技术通过词表剪枝提高了草稿模型的推理效率，降低计算开销。
P-GPTQ方法实现了前缀敏感的模型量化，显著减少了性能退化。
MiniCPM4在数据筛选和合成方面进行了创新，提升了模型的能力密度。
UltraClean方法通过高效的数据验证策略筛选出高质量的预训练数据。
MiniCPM4-Survey系统能够高效生成结构清晰、内容可信的长篇综述。
MiniCPM4-MCP模型具备理解MCP协议、调用各类工具的能力，适用于智能体系统。

❓

延伸问答

MiniCPM 4模型的参数规模有哪些？

MiniCPM 4模型提供0.5B和8B两种参数规模。

MiniCPM 4在长文本处理上实现了怎样的加速？

MiniCPM 4在长文本处理上实现了5倍的常规加速。

MiniCPM 4采用了什么样的模型架构？

MiniCPM 4采用了InfLLM v2原生稀疏注意力模型架构。

MiniCPM 4如何降低计算和内存访问成本？

MiniCPM 4通过设计可训练的稀疏注意力InfLLM v2来降低计算和内存访问成本。

MiniCPM 4在基准测试中的表现如何？

MiniCPM 4在多个基准测试中表现优异，性能比肩Qwen-3-8B，超越Gemma-3-12B。

MiniCPM 4的推理框架有什么特点？

MiniCPM 4的推理框架CPM.cu是轻量化高效的CUDA推理框架，专为端侧设备优化。

🏷️

继续阅读

基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...