机器之心 ·

端侧版GPT-4o问世，面壁小钢炮实现端到端、全模态实时对话

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

面壁智能推出的MiniCPM-o 2.6是最新的8B参数多模态大模型，性能接近GPT-4o，支持双语语音识别和实时对话，具备出色的视觉和语音处理能力，适用于多种设备，并在语音理解和生成方面实现开源SOTA，推动端侧AI发展。

🎯

关键要点

面壁智能推出的MiniCPM-o 2.6是最新的8B参数多模态大模型，性能接近GPT-4o。
MiniCPM-o 2.6支持双语语音识别和实时对话，具备出色的视觉和语音处理能力。
该模型基于先进的token密度技术，显著提高了推理速度和效率，支持在iPad等设备上进行实时多模态互动。
MiniCPM-o 2.6在音、视、听领域取得了全SOTA，性能比肩GPT-4o和Claude-3.5-Sonnet。
在语音理解和生成方面，MiniCPM-o 2.6超越了多个开源模型，成为最强开源语音通用模型。
该模型在实时流式视频理解能力上表现优异，能够感知用户提问之前的画面和声音。
MiniCPM-o 2.6在高级情感语音方面具备真人质感的语音生成能力和低延迟的自然对话体验。
该模型支持情感与语气表达，能够进行语音克隆和基于语言描述的声音创建。
MiniCPM-o 2.6在智能座舱、教育、商务和特殊人群服务等场景中具有广泛应用潜力。
面壁团队提出大模型密度定律，预测大模型能力密度将不断提升，推理和训练成本将快速下降。
端侧AI硬件将在2024年成为科技创业的风口，推动大模型向设备端的扩散。

❓

延伸问答

MiniCPM-o 2.6的主要特点是什么？

MiniCPM-o 2.6是一个8B参数的多模态大模型，支持双语语音识别和实时对话，具备出色的视觉和语音处理能力，性能接近GPT-4o。

MiniCPM-o 2.6在语音理解和生成方面的表现如何？

MiniCPM-o 2.6在语音理解和生成方面超越了多个开源模型，成为最强开源语音通用模型，取得了开源双SOTA。

MiniCPM-o 2.6适合哪些应用场景？

MiniCPM-o 2.6适用于智能座舱、教育、商务和特殊人群服务等多种场景，具有广泛的应用潜力。

MiniCPM-o 2.6如何提高推理速度和效率？

该模型基于先进的token密度技术，显著提高了推理速度和效率，处理180万像素图像仅产生640tokens。

MiniCPM-o 2.6在情感语音生成方面有什么优势？

MiniCPM-o 2.6具备真人质感的语音生成能力，支持情感与语气表达，能够进行语音克隆和基于语言描述的声音创建。

面壁智能的未来发展方向是什么？

面壁智能的未来发展方向是聚焦端侧模型，推动大模型向设备端的扩散，预计到2025年将有大量硬件搭载端侧智能。

🏷️

标签

MiniCPM-o 2.6 gpt 多模态大模型实时对话端侧AI 语音识别

➡️

继续阅读

architect-loop：把Claude当建筑师 GPT当工人仓库即记忆
architect-loop是一个协作框架，将AI模型分为建筑师（Claude Fable）和工人（GPT-5.5 Codex）。通过规格说明、验收标准和...
《GPT 图解》笔记：微调与RLHF、总结
本文讨论了微调和人类反馈强化学习（RLHF）在GPT模型训练中的应用。微调通过特定对话数据优化模型，RLHF则通过监督学习和人类偏好评分提升回答质量。作者...
为什么谷歌Gemma 12B写东西比GPT-5更像真人？小模型的逆袭
谷歌的Gemma模型通过使用Gmail等私有数据进行训练，展现出更自然的对话能力。相比于大型模型，Gemma因参数较少，保留了人类的语言本能，更贴近真实对...
Claude Fable在一次编码测试中花费9美元，而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。
文章讨论了人工智能（AI）模型的选择和使用策略，强调掌握AI技能的重要性。Anthropic公司因遵循美国政府的出口控制指令，暂时禁用了Fable 5和M...
《GPT 图解》笔记：GPT-从 Decoder 到自回归文本生成
本文讨论了GPT模型的结构及其自回归文本生成过程。GPT基于Decoder架构，采用贪婪解码和集束搜索策略生成文本。通过右移输入实现自回归，模型将输入和输...
Cloudflare Email Worker 踩坑实录：三个你一定会遇到的问题
本文讨论了使用Cloudflare Email Worker处理邮件自动化时的三个主要问题：1. message.forward()无法转发到同一Work...