Gemma 3n引入新技术以增强移动AI推理

Gemma 3n引入新技术以增强移动AI推理

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Gemma 3n正式发布,专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。MatFormer技术支持模型嵌套,允许选择完整模型或子模型。此外,Gemma 3n引入KV缓存共享,加速推理时间,并具备音频和视频编码能力,支持自动语音识别和翻译。

🎯

关键要点

  • Gemma 3n正式发布,专注于移动设备的AI应用。

  • 采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。

  • 5亿参数模型仅需加载20亿参数,8亿参数模型需加载40亿参数。

  • MatFormer技术支持模型嵌套,允许选择完整模型或子模型。

  • 支持动态切换全模型和子模型,适应当前任务和设备负载。

  • 引入KV缓存共享,加速推理时间,提升预填性能2倍。

  • 具备音频和视频编码能力,支持自动语音识别和翻译。

  • 音频编码器每160毫秒生成一个token,提供声音上下文的细粒度表示。

  • 支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。

  • 支持256x256、512x512和768x768像素的分辨率,处理速度可达每秒60帧。

  • 与Gemma 3相比,量化后速度提升13倍,内存占用减少四倍。

延伸问答

Gemma 3n的主要功能是什么?

Gemma 3n专注于移动设备的AI应用,具备音频和视频编码能力,支持自动语音识别和翻译。

Gemma 3n如何减少RAM需求?

Gemma 3n采用Per-Layer Embeddings技术,仅加载核心变换器权重到加速内存,其余参数保留在CPU上,从而减少RAM需求。

MatFormer技术的作用是什么?

MatFormer技术允许模型嵌套,使得开发者可以选择完整模型或其更快的子模型,从而实现弹性推理。

Gemma 3n在推理速度上有何提升?

与Gemma 3相比,Gemma 3n在量化后速度提升13倍,内存占用减少四倍。

Gemma 3n支持哪些语言的翻译?

Gemma 3n支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。

Gemma 3n的音频编码器如何工作?

音频编码器每160毫秒生成一个token,提供声音上下文的细粒度表示,支持长音频流处理。

➡️

继续阅读