派早报:Google 发布 Gemma 4 开源系列模型、智谱发布 GLM-5V-Turbo 多模态模型等

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

Google于4月2日发布了开源模型Gemma 4,强调参数效率和本地运行能力,支持多种设备和语言,具备多模态处理能力,适用于Agent工作流开发。该模型采用Apache 2.0许可证,兼容主流工具链,推动AI在移动端和边缘计算的应用。

🎯

关键要点

  • Google于4月2日发布了开源模型Gemma 4,强调参数效率和本地运行能力。

  • Gemma 4提供四种规模版本,适用于从移动设备到高性能GPU的多层级部署需求。

  • 31B模型在Arena AI排行榜中位列开源模型前三,性能超过部分参数规模高出约20倍的模型。

  • Gemma 4支持最长256K上下文窗口,具备多模态处理能力,支持图像、视频与音频内容输入。

  • 模型原生支持函数调用、结构化JSON输出及系统指令,适用于Agent工作流开发。

  • Gemma 4采用Apache 2.0开源许可证,兼容主流工具链,支持本地设备或云端环境部署。

  • Gemma 4已支持超过140种语言,面向Android设备、物联网及科研等场景。

  • 智谱于4月2日推出视觉语言模型GLM-5V-Turbo,旨在解决视觉理解与代码生成之间的性能权衡问题。

  • GLM-5V-Turbo通过联合强化学习训练实现能力平衡,支持最高200K上下文窗口。

  • Google将强制要求所有Wear OS手表应用支持64位,开发者需提供32位与64位版本应用。

  • 中国广播电视社会组织联合会演员委员会发布声明,强调演艺人员的肖像权、声音权及艺术形象权。

  • 声明要求短视频、直播及影视平台强化内容审核机制,全面排查并下架侵权作品。

  • Google宣布升级AI Pro订阅权益,云存储容量由2TB提升至5TB,Gemini能力进一步增强。

延伸问答

Gemma 4 模型的主要特点是什么?

Gemma 4 强调参数效率和本地运行能力,支持多种设备和语言,具备多模态处理能力,适用于 Agent 工作流开发。

Gemma 4 支持哪些类型的输入?

Gemma 4 支持图像、视频与音频内容输入,具备多模态处理能力。

Gemma 4 的开源许可证是什么?

Gemma 4 采用 Apache 2.0 开源许可证,兼容主流工具链。

GLM-5V-Turbo 模型的主要应用场景是什么?

GLM-5V-Turbo 面向 Agent 场景深度适配,能够基于视觉输入生成代码并完成界面操作。

Gemma 4 的上下文窗口支持多大?

Gemma 4 支持最长 256K 的上下文窗口,边缘侧模型为 128K。

Google 对 Wear OS 应用的要求是什么?

Google 要求所有 Wear OS 新应用及更新必须同时提供 32 位与 64 位版本,未满足要求的版本将无法上传。

➡️

继续阅读