本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。
完成下面两步后,将自动完成登录并继续当前操作。