内容提要
Gemma 3n正式发布,专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。MatFormer技术支持模型嵌套,允许选择完整模型或子模型。此外,Gemma 3n引入KV缓存共享,加速推理时间,并具备音频和视频编码能力,支持自动语音识别和翻译。
关键要点
-
Gemma 3n正式发布,专注于移动设备的AI应用。
-
采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。
-
5亿参数模型仅需加载20亿参数,8亿参数模型需加载40亿参数。
-
MatFormer技术支持模型嵌套,允许选择完整模型或子模型。
-
支持动态切换全模型和子模型,适应当前任务和设备负载。
-
引入KV缓存共享,加速推理时间,提升预填性能2倍。
-
具备音频和视频编码能力,支持自动语音识别和翻译。
-
音频编码器每160毫秒生成一个token,提供声音上下文的细粒度表示。
-
支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。
-
支持256x256、512x512和768x768像素的分辨率,处理速度可达每秒60帧。
-
与Gemma 3相比,量化后速度提升13倍,内存占用减少四倍。
延伸问答
Gemma 3n的主要功能是什么?
Gemma 3n专注于移动设备的AI应用,具备音频和视频编码能力,支持自动语音识别和翻译。
Gemma 3n如何减少RAM需求?
Gemma 3n采用Per-Layer Embeddings技术,仅加载核心变换器权重到加速内存,其余参数保留在CPU上,从而减少RAM需求。
MatFormer技术的作用是什么?
MatFormer技术允许模型嵌套,使得开发者可以选择完整模型或其更快的子模型,从而实现弹性推理。
Gemma 3n在推理速度上有何提升?
与Gemma 3相比,Gemma 3n在量化后速度提升13倍,内存占用减少四倍。
Gemma 3n支持哪些语言的翻译?
Gemma 3n支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。
Gemma 3n的音频编码器如何工作?
音频编码器每160毫秒生成一个token,提供声音上下文的细粒度表示,支持长音频流处理。