💡
原文英文,约600词,阅读约需2分钟。
📝
内容提要
谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器,以及改进的图像处理算法。Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。
🎯
关键要点
- 谷歌开源的生成性人工智能模型Gemma 3支持视觉语言理解、长上下文处理和多语言能力。
- Gemma 3的新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器和改进的图像处理算法。
- Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。
- 视觉语言理解能力使用自定义Sigmoid损失的视觉编码器,能够解释视觉输入。
- 采用'Pan & Scan'算法处理不同长宽比或高分辨率的图像,进一步提高性能。
- Gemma 3的视觉编码器使用双向注意力机制,适合理解任务。
- 架构改进减少了KV缓存内存使用,允许分析更长的文档和对话而不失去上下文。
- Gemma 3引入了改进的分词器,词汇量增至262k,适合多语言处理。
- Gemma 3在多语言能力上有所提升,经过重新审视的数据混合增加了多语言数据量。
- Gemma 3在各项基准测试中表现优于Gemma 2,适合单个消费者GPU或TPU主机。
- Gemma 27B IT模型在LM Arena中排名前十,表现优于更大的开放模型。
- Gemma 3的长上下文处理能力可扩展至128k,经过RoPE重缩放后实现。
- 有关Gemma 3模型的更多信息,请查看开发者指南、模型卡和社区开发的Gemmaverse。
➡️