💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。
🎯
关键要点
- Dense image captioning在视觉-语言预训练和文本到图像生成中至关重要,但专家质量的注释成本高昂。
- 合成字幕通过强大的视觉-语言模型(VLMs)是一个可行的替代方案,但监督蒸馏通常导致输出多样性有限和泛化能力弱。
- 强化学习(RL)可以克服这些限制,但其成功主要集中在依赖确定性检查器的可验证领域,这在开放式字幕生成中并不可用。
- RubiCap是一种新型的RL框架,通过大型语言模型(LLM)生成细致的、样本特定的奖励信号,解决了这一瓶颈。
- RubiCap首先组建一个多样化的候选字幕委员会,然后使用LLM评估员提取共识强度并诊断当前策略的缺陷。
- 这些见解被转化为明确的评估标准,使LLM评估员能够分解整体质量评估,并用结构化的、多方面的评估替代粗略的标量奖励。
- 在广泛的基准测试中,RubiCap在CapArena上取得了最高的胜率,超越了监督蒸馏、先前的RL方法、人类专家注释和GPT-4V增强的输出。
- 在CaptionQA上,RubiCap展示了更高的词效率:我们的7B模型与Qwen2.5-VL-32B-Instruct相匹配,而我们的3B模型超越了其7B对手。
- 值得注意的是,使用紧凑的RubiCap-3B作为字幕生成器,产生的预训练VLM比那些基于专有模型的字幕训练的更强。
➡️