Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。

🎯

关键要点

  • Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型。

  • 该模型支持文本、图像、音频和视频处理,直接输入视觉和音频数据。

  • Gemma 4 12B 在配备 16 GB 内存的消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。

  • 模型采用 Apache 2.0 许可证,权重数据开放可下载。

  • 视觉嵌入器通过矩阵乘法和位置查找表处理图像,音频波形直接投影到嵌入空间。

  • 无编码器设计降低了多模态延迟,简化了处理流程。

  • 该模型展现了自动语音识别、智能推理、声音分割和视频理解等功能。

  • 谷歌报告称,切换到 Gemma 4 12B 后,整体质量提高了 60% 以上,指令遵循性和范围遵守性改善。

延伸问答

Gemma 4 12B 是什么类型的模型?

Gemma 4 12B 是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。

Gemma 4 12B 的硬件要求是什么?

Gemma 4 12B 可以在配备 16 GB 内存的消费级笔记本电脑上运行。

Gemma 4 12B 的性能如何?

Gemma 4 12B 的性能接近 26B MoE 模型,但内存占用不到一半。

Gemma 4 12B 如何处理视觉和音频数据?

Gemma 4 12B 通过直接输入视觉和音频数据,简化了处理流程,无需单独的编码器。

Gemma 4 12B 的主要功能有哪些?

Gemma 4 12B 展现了自动语音识别、智能推理、声音分割和视频理解等功能。

Gemma 4 12B 的许可证是什么?

Gemma 4 12B 采用 Apache 2.0 许可证,权重数据开放可下载。

➡️

继续阅读