Apple Machine Learning Research ·

RubiCap：基于评分标准的强化学习用于密集图像字幕生成

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

RubiCap是一种新型强化学习框架，通过大型语言模型生成细致的奖励信号，有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异，超越传统方法和人类专家注释。

🎯

Dense image captioning在视觉-语言预训练和文本到图像生成中至关重要，但专家质量的注释成本高昂。
合成字幕通过强大的视觉-语言模型（VLMs）是一个可行的替代方案，但监督蒸馏通常导致输出多样性有限和泛化能力弱。
强化学习（RL）可以克服这些限制，但其成功主要集中在依赖确定性检查器的可验证领域，这在开放式字幕生成中并不可用。
RubiCap是一种新型的RL框架，通过大型语言模型（LLM）生成细致的、样本特定的奖励信号，解决了这一瓶颈。
RubiCap首先组建一个多样化的候选字幕委员会，然后使用LLM评估员提取共识强度并诊断当前策略的缺陷。
这些见解被转化为明确的评估标准，使LLM评估员能够分解整体质量评估，并用结构化的、多方面的评估替代粗略的标量奖励。
在广泛的基准测试中，RubiCap在CapArena上取得了最高的胜率，超越了监督蒸馏、先前的RL方法、人类专家注释和GPT-4V增强的输出。
在CaptionQA上，RubiCap展示了更高的词效率：我们的7B模型与Qwen2.5-VL-32B-Instruct相匹配，而我们的3B模型超越了其7B对手。
值得注意的是，使用紧凑的RubiCap-3B作为字幕生成器，产生的预训练VLM比那些基于专有模型的字幕训练的更强。

🔎

RubiCap通过结合强化学习和大型语言模型，解决了图像字幕生成中的多样性和泛化问题。与传统方法相比，它能够生成更细致的奖励信号，从而提升生成字幕的质量。这种创新方法为未来的视觉-语言模型提供了新的思路，尤其是在处理开放式字幕生成时。

在CapArena和CaptionQA的基准测试中，RubiCap的表现显著优于其他方法，包括监督蒸馏和人类专家注释。这表明RubiCap不仅在理论上具有优势，其实际应用中也能有效提升字幕生成的质量和效率，值得关注其在实际项目中的应用潜力。

RubiCap的3B模型在CaptionQA中表现出色，超越了更大规模的7B模型。这一发现强调了模型的紧凑性与效率之间的关系，表明在某些情况下，较小的模型也能实现与大型模型相媲美的性能，可能为资源有限的应用场景提供了新的选择。

❓

RubiCap是一种新型强化学习框架，通过大型语言模型生成细致的奖励信号，解决图像字幕生成中的多样性和泛化问题。

RubiCap通过组建多样化的候选字幕委员会，并使用LLM评估员提取共识强度，转化为明确的评估标准，从而提高字幕生成质量。

在CapArena和CaptionQA基准测试中，RubiCap表现优异，超越了传统方法和人类专家注释。

RubiCap在输出多样性和泛化能力上优于传统的监督蒸馏方法，并在多个基准测试中取得更高的胜率。

RubiCap通过生成细致的、样本特定的奖励信号，克服了监督蒸馏导致的输出多样性有限的问题。

RubiCap的7B模型在词效率上与Qwen2.5-VL-32B-Instruct相匹配，而3B模型则超越了其7B对手，显示出模型规模对性能的积极影响。

🏷️