InfoQ ·

谷歌发布PaliGemma 2视觉语言模型系列

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind推出PaliGemma 2视觉语言模型，提供三种尺寸和分辨率，性能卓越。该模型结合了SigLIP-So400m图像编码器和Gemma 2 LLM，经过多项基准测试，超越了现有前沿模型。PaliGemma 2可生成详细图像描述，支持多种任务，且在CPU上运行时质量无显著差异。

🎯

关键要点

谷歌DeepMind推出PaliGemma 2视觉语言模型，提供三种尺寸和分辨率，性能卓越。
PaliGemma 2是PaliGemma系列的更新版，使用SigLIP-So400m图像编码器和Gemma 2 LLM。
该模型包含九种不同的模型，结合了不同参数和分辨率的视觉编码器。
PaliGemma 2在多个基准测试中创下新纪录，包括光学字符识别和分子结构识别。
模型结合了预训练的SigLIP-So400m图像编码器和Gemma 2 LLM，并在1B示例的多模态数据集上进一步预训练。
谷歌还发布了在DOCCI数据集上微调的变体，能够生成更详细的图像描述。
微调后的PaliGemma 2在多个基准任务中超越了之前的前沿模型。
团队评估了在CPU上运行的量化版本的性能，显示出没有显著的质量差异。
用户反馈指出PaliGemma 2在处理多图像输入方面存在局限性。
Gemma团队成员表示PaliGemma 2可以生成机器人指令，但不适合高风险任务。
PaliGemma 2的基础模型和微调版本可在Huggingface上获取，并提供了可视化问答演示。

❓

延伸问答

PaliGemma 2的主要特点是什么？

PaliGemma 2是谷歌DeepMind推出的视觉语言模型，提供三种尺寸和分辨率，结合了SigLIP-So400m图像编码器和Gemma 2 LLM，性能卓越。

PaliGemma 2在基准测试中表现如何？

PaliGemma 2在多个基准测试中创下新纪录，包括光学字符识别和分子结构识别，超越了之前的前沿模型。

PaliGemma 2支持哪些任务？

PaliGemma 2支持生成详细图像描述、光学字符识别、分子结构识别等多种任务。

PaliGemma 2的微调版本有什么优势？

微调后的PaliGemma 2能够生成更详细的图像描述，并在多个基准任务中超越了之前的模型。

PaliGemma 2在CPU上运行的表现如何？

在CPU上运行的量化版本显示出没有显著的质量差异，性能表现良好。

PaliGemma 2的局限性是什么？

用户反馈指出PaliGemma 2在处理多图像输入方面存在局限性，无法同时处理多个图像。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
技嘉科技推出INFINITY系列限定产品
技嘉科技在COMPUTEX 2026展前发布了INFINITY系列限定产品，以庆祝成立40周年。新产品包括支持DDR5 11400 MT/s的X870 A...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
谷歌允许社交媒体明星自定义他们的搜索结果页面
谷歌允许美国的大型创作者和出版商申请专属搜索资料，展示他们的在线内容，如视频和文章。此功能仅限于拥有至少10万YouTube订阅者、10万Instagra...