实时互动网 ·

Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行，性能接近 26B MoE 模型，但内存占用不到一半。它通过直接输入视觉和音频数据，简化了处理流程，提升了整体质量和指令遵循性。

🎯

🔎

Gemma 4 12B 的无编码器设计显著降低了多模态处理的延迟，使得视觉和音频数据可以直接输入到模型中。这种设计不仅简化了处理流程，还提高了整体性能，尤其适合需要快速响应的应用场景，如实时语音识别和视频分析。

尽管 Gemma 4 12B 的参数量为 120 亿，但其性能接近 26B MoE 模型，且内存占用不到一半。这使得它能够在配备 16 GB 内存的消费级笔记本电脑上运行，降低了高性能计算的门槛，适合更多开发者和研究人员使用。

Gemma 4 12B 支持文本、图像、音频和视频的处理，展现了强大的多模态能力。这使得它在自动语音识别、智能推理和视频理解等领域具有广泛的应用潜力，尤其是在需要综合多种数据源的智能应用中。

❓

Gemma 4 12B 是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。

Gemma 4 12B 可以在配备 16 GB 内存的消费级笔记本电脑上运行。

Gemma 4 12B 的性能接近 26B MoE 模型，但内存占用不到一半。

Gemma 4 12B 通过直接输入视觉和音频数据，简化了处理流程，无需单独的编码器。

Gemma 4 12B 展现了自动语音识别、智能推理、声音分割和视频理解等功能。

Gemma 4 12B 采用 Apache 2.0 许可证，权重数据开放可下载。

🏷️