量子位 ·

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

面壁智能发布了MiniCPM-o 4.5，这是首个全双工全模态大模型，支持视频、音频和文本流输入，能够在个人电脑上运行，具备实时感知和主动交互能力，提升用户体验。该模型在多项评测中表现优异，适用于智能助手和无障碍服务，但在稳定性和复杂场景处理上仍有不足。

🎯

关键要点

面壁智能发布了MiniCPM-o 4.5，这是首个全双工全模态大模型，支持视频、音频和文本流输入。
该模型可以在个人电脑上运行，具备实时感知和主动交互能力，提升用户体验。
MiniCPM-o 4.5的参数规模约为9B，支持连续的文本与语音输出，降低了个人端侧部署的准入门槛。
模型在多项评测中表现优异，尤其在视觉能力和全模态动态交互方面，超越了多款行业前沿大模型。
MiniCPM-o 4.5支持中英双语实时语音对话，具备声音克隆与角色扮演功能，适配多种使用场景。
尽管在稳定性和复杂场景处理上仍有不足，但MiniCPM-o 4.5已为全双工全模态AI应用设立了新的起点。

🔎

延伸解读

全双工交互的优势

MiniCPM-o 4.5的全双工交互能力使得用户与AI之间的沟通更加自然流畅。与传统的半双工模式相比，用户可以在对话中随时插话，AI也能实时感知环境。这种交互方式不仅提升了用户体验，还为多模态AI的实际应用开辟了新的可能性。

技术应用场景

MiniCPM-o 4.5适用于多种场景，包括智能助手、无障碍服务和智能车载系统等。在生活服务中，它可以提供实时指导和提醒；在无障碍领域，能够帮助视障人士感知环境。这些应用展示了其在实际生活中的广泛潜力。

部署门槛降低

该模型的参数规模为9B，且支持在消费级显卡上运行，显著降低了个人用户的使用门槛。用户只需一张显存为12GB的显卡即可流畅体验全双工交互，这为更多普通用户和开发者提供了接入AI技术的机会。

当前技术局限

尽管MiniCPM-o 4.5在多项评测中表现优异，但在长时间交互的稳定性和复杂场景处理上仍存在不足。这些局限性需要在未来的版本中进一步优化，以提升其在实际应用中的可靠性和适应性。

❓

延伸问答

MiniCPM-o 4.5是什么类型的模型？

MiniCPM-o 4.5是首个全双工全模态大模型，支持视频、音频和文本流输入。

MiniCPM-o 4.5的运行要求是什么？

该模型可在个人电脑上运行，最低需要12GB显存的RTX 5070显卡，或M1-M5 Max的MAC设备，建议内存超过16G。

MiniCPM-o 4.5在评测中的表现如何？

在多项评测中，MiniCPM-o 4.5的表现优异，尤其在视觉能力和全模态动态交互方面超越了多款行业前沿大模型。

MiniCPM-o 4.5支持哪些语言功能？

该模型支持中英双语实时语音对话，具备声音克隆与角色扮演功能。

MiniCPM-o 4.5的应用场景有哪些？

该模型适用于智能助手、无障碍服务、智能车载、具身智能等多种场景。

MiniCPM-o 4.5的技术优势是什么？

其核心技术Omni-Flow流式全模态框架实现毫秒级统一时间轴，支持持续感知和主动交互，降低了交互延迟。

🏷️