少数派 ·

派早报：Google 发布 Gemma 4 开源系列模型、智谱发布 GLM-5V-Turbo 多模态模型等

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

Google于4月2日发布了开源模型Gemma 4，强调参数效率和本地运行能力，支持多种设备和语言，具备多模态处理能力，适用于Agent工作流开发。该模型采用Apache 2.0许可证，兼容主流工具链，推动AI在移动端和边缘计算的应用。

🎯

关键要点

Google于4月2日发布了开源模型Gemma 4，强调参数效率和本地运行能力。
Gemma 4提供四种规模版本，适用于从移动设备到高性能GPU的多层级部署需求。
31B模型在Arena AI排行榜中位列开源模型前三，性能超过部分参数规模高出约20倍的模型。
Gemma 4支持最长256K上下文窗口，具备多模态处理能力，支持图像、视频与音频内容输入。
模型原生支持函数调用、结构化JSON输出及系统指令，适用于Agent工作流开发。
Gemma 4采用Apache 2.0开源许可证，兼容主流工具链，支持本地设备或云端环境部署。
Gemma 4已支持超过140种语言，面向Android设备、物联网及科研等场景。
智谱于4月2日推出视觉语言模型GLM-5V-Turbo，旨在解决视觉理解与代码生成之间的性能权衡问题。
GLM-5V-Turbo通过联合强化学习训练实现能力平衡，支持最高200K上下文窗口。
Google将强制要求所有Wear OS手表应用支持64位，开发者需提供32位与64位版本应用。
中国广播电视社会组织联合会演员委员会发布声明，强调演艺人员的肖像权、声音权及艺术形象权。
声明要求短视频、直播及影视平台强化内容审核机制，全面排查并下架侵权作品。
Google宣布升级AI Pro订阅权益，云存储容量由2TB提升至5TB，Gemini能力进一步增强。

❓

延伸问答

Gemma 4 模型的主要特点是什么？

Gemma 4 强调参数效率和本地运行能力，支持多种设备和语言，具备多模态处理能力，适用于 Agent 工作流开发。

Gemma 4 支持哪些类型的输入？

Gemma 4 支持图像、视频与音频内容输入，具备多模态处理能力。

Gemma 4 的开源许可证是什么？

Gemma 4 采用 Apache 2.0 开源许可证，兼容主流工具链。

GLM-5V-Turbo 模型的主要应用场景是什么？

GLM-5V-Turbo 面向 Agent 场景深度适配，能够基于视觉输入生成代码并完成界面操作。

Gemma 4 的上下文窗口支持多大？

Gemma 4 支持最长 256K 的上下文窗口，边缘侧模型为 128K。

Google 对 Wear OS 应用的要求是什么？

Google 要求所有 Wear OS 新应用及更新必须同时提供 32 位与 64 位版本，未满足要求的版本将无法上传。

🏷️

继续阅读

Gemma 4：逐字节，最强大的开放模型
我们推出了Gemma 4，这是迄今为止最智能的开放模型，专为高级推理和自主工作流程设计，提供前所未有的智能水平。自首代发布以来，开发者下载超过4亿次，创造...
Gemma 4：逐字节，最强大的开源模型
Gemma 4是最新的开源AI模型，具备先进的推理和多任务处理能力，支持多种硬件，能够高效生成代码、处理视觉和音频，适用于140多种语言。该模型在Apac...
谷歌开源发布Gemma 4系列模型体积更小但提供类似Kimi-K2.5的智能
谷歌推出Gemma 4系列模型，基于Gemini 3技术，体积小巧，适用于智能手机等边缘设备。该模型支持多模态输入，优化了参数效率和上下文长度，性能接近K...
以小小小小胜大！Google 最强小模型刚刚发布，手机也能跑
Google发布的Gemma 4系列模型全面开源，遵循Apache 2.0协议，允许开发者自由使用和修改。新模型性能显著提升，支持在手机和边缘设备上离线运...
从RTX到Spark：NVIDIA加速Gemma 4以实现本地智能AI
谷歌Gemma 4系列推出小型高效模型，优化NVIDIA GPU性能，支持推理、编码和多模态交互，适用于边缘设备和高性能GPU，推动本地智能助手的发展。
智谱推出GLM-5V-Turbo多模态编码基础模型支持输入图像/视频/文本等
智谱推出的GLM-5V-Turbo是首个多模态编码基础模型，支持视频、图片和文本输入，优化AI工作流程，具备实时响应和工具调用能力。