Apple Machine Learning Research ·

BalCapRL：一种基于强化学习的多模态大语言模型图像描述的平衡框架

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了一种名为BalCapRL的平衡强化学习框架，旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽，显著提升了描述的实用性、覆盖率和语言质量，克服了现有方法在描述质量上的局限性，多个模型的性能均有显著提高。

🎯

🔎

BalCapRL框架通过强化学习优化图像描述，解决了传统方法在描述质量上的不足。它不仅关注描述的实用性，还兼顾了语言流畅性和覆盖率，这对于多模态大语言模型的应用至关重要。

该框架采用了奖励解耦归一化和长度条件奖励掩蔽，能够更好地平衡不同目标之间的关系。这种多目标奖励机制使得生成的描述在准确性和实用性上都有显著提升，适用于更复杂的应用场景。

在LLaVA-1.5-7B和Qwen2.5-VL 3B及7B基础模型上，BalCapRL框架展现了显著的性能提升。这表明该方法在不同模型上的适应性强，能够为未来的研究提供有价值的参考。

❓

BalCapRL框架旨在优化多模态大语言模型的图像描述。

通过奖励解耦归一化和长度条件奖励掩蔽，显著提升描述的实用性、覆盖率和语言质量。

克服了现有方法在描述质量上的局限性，提升了多个模型的性能。

在LLaVA-1.5-7B和Qwen2.5-VL 3B和7B基础模型上进行了测试。

在不同模型上，性能提升达到了+13.6 DCScore，+9.0 CaptionQA和+29.0 CapArena。

其创新点在于采用了GDPO风格的奖励解耦归一化和长度条件奖励掩蔽。

🏷️