EVCap:用于开放世界理解的外部视觉名称存储的检索增强图像字幕
该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。
ViECap是一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap通过实体感知的硬提示将LLMs的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。实验证明ViECap在跨域字幕生成方面具有竞争力。
该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。
ViECap是一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap通过实体感知的硬提示将LLMs的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。实验证明ViECap在跨域字幕生成方面具有竞争力。