💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Gemma 3n正式发布,专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。MatFormer技术支持模型嵌套,允许选择完整模型或子模型。此外,Gemma 3n引入KV缓存共享,加速推理时间,并具备音频和视频编码能力,支持自动语音识别和翻译。

🎯

关键要点

  • Gemma 3n正式发布,专注于移动设备的AI应用。
  • 采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。
  • 5亿参数模型仅需加载20亿参数,8亿参数模型需加载40亿参数。
  • MatFormer技术支持模型嵌套,允许选择完整模型或子模型。
  • 支持动态切换全模型和子模型,适应当前任务和设备负载。
  • 引入KV缓存共享,加速推理时间,提升预填性能2倍。
  • 具备音频和视频编码能力,支持自动语音识别和翻译。
  • 音频编码器每160毫秒生成一个token,提供声音上下文的细粒度表示。
  • 支持英语与西班牙语、法语、意大利语和葡萄牙语之间的翻译。
  • 支持256x256、512x512和768x768像素的分辨率,处理速度可达每秒60帧。
  • 与Gemma 3相比,量化后速度提升13倍,内存占用减少四倍。
➡️

继续阅读