内容提要
RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。
关键要点
-
Dense image captioning在视觉-语言预训练和文本到图像生成中至关重要,但专家质量的注释成本高昂。
-
合成字幕通过强大的视觉-语言模型(VLMs)是一个可行的替代方案,但监督蒸馏通常导致输出多样性有限和泛化能力弱。
-
强化学习(RL)可以克服这些限制,但其成功主要集中在依赖确定性检查器的可验证领域,这在开放式字幕生成中并不可用。
-
RubiCap是一种新型的RL框架,通过大型语言模型(LLM)生成细致的、样本特定的奖励信号,解决了这一瓶颈。
-
RubiCap首先组建一个多样化的候选字幕委员会,然后使用LLM评估员提取共识强度并诊断当前策略的缺陷。
-
这些见解被转化为明确的评估标准,使LLM评估员能够分解整体质量评估,并用结构化的、多方面的评估替代粗略的标量奖励。
-
在广泛的基准测试中,RubiCap在CapArena上取得了最高的胜率,超越了监督蒸馏、先前的RL方法、人类专家注释和GPT-4V增强的输出。
-
在CaptionQA上,RubiCap展示了更高的词效率:我们的7B模型与Qwen2.5-VL-32B-Instruct相匹配,而我们的3B模型超越了其7B对手。
-
值得注意的是,使用紧凑的RubiCap-3B作为字幕生成器,产生的预训练VLM比那些基于专有模型的字幕训练的更强。
延伸问答
RubiCap的主要功能是什么?
RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,解决图像字幕生成中的多样性和泛化问题。
RubiCap如何提高图像字幕生成的质量?
RubiCap通过组建多样化的候选字幕委员会,并使用LLM评估员提取共识强度,转化为明确的评估标准,从而提高字幕生成质量。
RubiCap在基准测试中的表现如何?
在CapArena和CaptionQA基准测试中,RubiCap表现优异,超越了传统方法和人类专家注释。
RubiCap与传统方法相比有哪些优势?
RubiCap在输出多样性和泛化能力上优于传统的监督蒸馏方法,并在多个基准测试中取得更高的胜率。
RubiCap是如何解决输出多样性有限的问题的?
RubiCap通过生成细致的、样本特定的奖励信号,克服了监督蒸馏导致的输出多样性有限的问题。
RubiCap的模型规模对性能有何影响?
RubiCap的7B模型在词效率上与Qwen2.5-VL-32B-Instruct相匹配,而3B模型则超越了其7B对手,显示出模型规模对性能的积极影响。