InfoQ ·

Gemma 3n引入新技术以增强移动AI推理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Gemma 3n正式发布，专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求，同时保持参数数量。MatFormer技术支持模型嵌套，允许选择完整模型或子模型。此外，Gemma 3n引入KV缓存共享，加速推理时间，并具备音频和视频编码能力，支持自动语音识别和翻译。

🎯

关键要点

Gemma 3n正式发布，专注于移动设备的AI应用。
采用Per-Layer Embeddings技术减少RAM需求，同时保持参数数量。
5亿参数模型仅需加载20亿参数，8亿参数模型需加载40亿参数。
MatFormer技术支持模型嵌套，允许选择完整模型或子模型。
支持动态切换全模型和子模型，适应当前任务和设备负载。
引入KV缓存共享，加速推理时间，提升预填性能2倍。
具备音频和视频编码能力，支持自动语音识别和翻译。
音频编码器每160毫秒生成一个token，提供声音上下文的细粒度表示。
支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。
支持256x256、512x512和768x768像素的分辨率，处理速度可达每秒60帧。
与Gemma 3相比，量化后速度提升13倍，内存占用减少四倍。

🔎

延伸解读

新技术的内存优化

Gemma 3n采用Per-Layer Embeddings技术，显著降低了模型运行所需的RAM。这一创新使得即使在内存受限的移动设备上，也能高效运行大型AI模型，提升了移动AI应用的可行性。开发者可以更灵活地选择加载的参数数量，从而优化性能。

动态模型切换的优势

MatFormer技术允许Gemma 3n在运行时动态切换全模型和子模型，适应不同任务和设备负载。这种灵活性不仅提高了响应速度，还能在资源有限的情况下，确保应用的流畅性，尤其适合实时处理需求的场景。

多模态能力的应用前景

Gemma 3n的音频和视频编码能力使其在自动语音识别和翻译方面具备了强大的应用潜力。支持多种语言的翻译功能，能够满足全球用户的需求，尤其在多语言环境中，提升了用户体验和交互效率。

❓

延伸问答

Gemma 3n的主要功能是什么？

Gemma 3n专注于移动设备的AI应用，具备音频和视频编码能力，支持自动语音识别和翻译。

Gemma 3n如何减少RAM需求？

Gemma 3n采用Per-Layer Embeddings技术，仅加载核心变换器权重到加速内存，其余参数保留在CPU上，从而减少RAM需求。

MatFormer技术的作用是什么？

MatFormer技术允许模型嵌套，使得开发者可以选择完整模型或其更快的子模型，从而实现弹性推理。

Gemma 3n在推理速度上有何提升？

与Gemma 3相比，Gemma 3n在量化后速度提升13倍，内存占用减少四倍。

Gemma 3n支持哪些语言的翻译？

Gemma 3n支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。

Gemma 3n的音频编码器如何工作？

音频编码器每160毫秒生成一个token，提供声音上下文的细粒度表示，支持长音频流处理。

🏷️