PaliGemma 模型选择 - 蝈蝈俊

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

PaliGemma是Google开发的轻量级视觉语言模型,提供了三种可下载的模型类型:PT预训练模型、Mix通用模型和FT专用模型。每种模型有不同的参数和适用场景。

🎯

关键要点

  • PaliGemma是Google开发的轻量级视觉语言模型,具有多模态功能。
  • 提供三种可下载的模型类型:PT预训练模型、Mix通用模型和FT专用模型。
  • PT预训练模型可进行下游任务的微调,包含不同分辨率和框架的模型。
  • Mix通用模型经过多任务微调,适用于自由文本提示推理,直接可用。
  • FT专用模型针对特定学术数据集微调,通用性较差,但在特定场景下表现优异。
  • 每种模型的参数含义包括输入分辨率和实现框架。
  • PT模型不能直接使用,Mix模型适用于多种任务,FT模型专注于特定任务。
➡️

继续阅读