💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器,以及改进的图像处理算法。Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。

🎯

关键要点

  • 谷歌开源的生成性人工智能模型Gemma 3支持视觉语言理解、长上下文处理和多语言能力。
  • Gemma 3的新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器和改进的图像处理算法。
  • Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。
  • 视觉语言理解能力使用自定义Sigmoid损失的视觉编码器,能够解释视觉输入。
  • 采用'Pan & Scan'算法处理不同长宽比或高分辨率的图像,进一步提高性能。
  • Gemma 3的视觉编码器使用双向注意力机制,适合理解任务。
  • 架构改进减少了KV缓存内存使用,允许分析更长的文档和对话而不失去上下文。
  • Gemma 3引入了改进的分词器,词汇量增至262k,适合多语言处理。
  • Gemma 3在多语言能力上有所提升,经过重新审视的数据混合增加了多语言数据量。
  • Gemma 3在各项基准测试中表现优于Gemma 2,适合单个消费者GPU或TPU主机。
  • Gemma 27B IT模型在LM Arena中排名前十,表现优于更大的开放模型。
  • Gemma 3的长上下文处理能力可扩展至128k,经过RoPE重缩放后实现。
  • 有关Gemma 3模型的更多信息,请查看开发者指南、模型卡和社区开发的Gemmaverse。
➡️

继续阅读