ROME:评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种提高视觉语言模型推理性能和一致性的两阶段训练框架。第一阶段使用逐步推理样本微调VLMs,第二阶段结合语言模型反馈增强训练过程,产生高度一致和可靠的推理链。该框架有效提升了推理性能和一致性。
🎯
关键要点
- 通过 LLM-Human-in-the-Loop 流程和 CURE 基准评估现有的 VLMs。
- 即使是表现最佳的模型也无法展示强大的视觉推理能力和一致性。
- 提出了一个两阶段训练框架以提高 VLMs 的推理性能和一致性。
- 第一阶段使用 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。
- 第二阶段结合 LLMs 提供的反馈增强训练过程,产生高度一致和可靠的推理链。
- 框架在推理性能和一致性方面的有效性得到了经验上的突出。
➡️