Modular Blog ·

Modular：零日发布：Gemma 4在NVIDIA和AMD上的最快性能

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

谷歌DeepMind发布了Gemma 4系列模型，支持文本、图像和视频，具有256K上下文窗口，适用于复杂任务。Modular Cloud优化了Gemma 4的性能，提供高效的API接口，支持NVIDIA和AMD硬件，确保无缝扩展。

🎯

🔎

Gemma 4系列模型支持文本、图像和视频处理，适用于多种复杂任务。这种多模态能力使其在处理需要综合多种信息的应用场景中表现出色，尤其是在需要深度推理的情况下。开发者可以利用这一特性，提升产品的智能化水平。

Modular Cloud对Gemma 4进行了性能优化，确保其在NVIDIA和AMD硬件上都能实现高效运行。特别是，Gemma 4在NVIDIA B200上的吞吐量比vLLM高出15%。这种硬件兼容性为企业提供了灵活的部署选择，降低了技术壁垒。

Gemma 4 26B A4B采用混合专家模型架构，虽然总参数为26亿，但每次前向传递仅激活4亿参数。这种设计不仅降低了计算成本，还能在保持高质量输出的同时，适应高端服务器的内存限制，适合资源有限的环境。

❓

Gemma 4模型支持文本、图像和视频，具有256K上下文窗口，适用于复杂任务。

Modular Cloud通过提供高效的API接口和支持NVIDIA与AMD硬件，优化了Gemma 4的性能。

Gemma 4 31B是一个31亿参数的密集模型，而26B A4B是一个混合专家模型，具有26亿参数但每次仅激活4亿参数。

Gemma 4具有256K的上下文窗口。

Gemma 4支持256K上下文窗口，适合处理需要深度推理的OCR和视频理解任务。

Modular Cloud在几天内提供了生产就绪的端点，确保高性能和准确性。

🏷️