InfoQ ·

Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器，以及改进的图像处理算法。Gemma 3支持高达128k的上下文，性能优于前代模型，适合单个消费者GPU或TPU主机。

🎯

🔎

Gemma 3的视觉语言理解能力通过自定义Sigmoid损失的视觉编码器得以提升。这种编码器能够有效解析视觉输入，适用于处理高分辨率图像和不同长宽比的情况，尤其在图像阅读任务中表现出色。

Gemma 3支持高达128k的上下文处理能力，显著优于前代模型。这一特性使其在分析长文档和对话时能够保持上下文的连贯性，适合需要深入理解的应用场景。

Gemma 3在多语言处理方面的能力得到了增强，词汇量增至262k，并通过重新审视的数据混合增加了多语言数据量。这使得该模型在处理非英语语言时更加平衡，适合全球用户的需求。

❓

Gemma 3支持视觉语言理解、长上下文处理和多语言能力。

Gemma 3通过减少KV缓存内存使用，支持高达128k的上下文处理，允许分析更长的文档和对话而不失去上下文。

Gemma 3的视觉编码器使用自定义Sigmoid损失，采用双向注意力机制，能够解释视觉输入。

Gemma 3的多语言能力有所提升，词汇量增至262k，并增加了多语言数据量。

Gemma 3在各项基准测试中表现优于Gemma 2，适合单个消费者GPU或TPU主机。

Gemma 3采用'Pan & Scan'算法处理不同长宽比或高分辨率的图像，进一步提高性能。

🏷️