Pro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
ViECap是一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。通过实体感知的硬提示,ViECap能够在跨多样场景的连贯字幕生成中保持性能,并在跨域字幕生成方面达到最新水平。
🎯
关键要点
- ViECap是一种可转移的解码模型,利用实体感知解码生成场景描述。
- ViECap通过实体感知的硬提示引导LLMs的注意力到图像中的视觉实体。
- ViECap在跨多样场景的连贯字幕生成中表现出色。
- 在域内到域外的场景转移中,ViECap能够保持性能。
- 大量实验证明ViECap在跨域字幕生成方面达到最新水平。
- ViECap在域内字幕生成方面与以前基于VLMs的零样本方法具有竞争力。
➡️