Groma:针对多模态大语言模型的本地化视觉标记

Groma 是一个多模式大型语言模型,具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联,通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外,Groma 还利用 GPT-4V 和视觉提示技术创建了一个视觉基准数据集,使其在基准测试中表现出优越的对话能力。

相关推荐 去reddit讨论