ROME：评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现

原文约300字，阅读约需1分钟。发表于：。

评估最新的预训练视觉 - 语言模型在解释反直觉情境方面的推理能力，揭示大多数模型在此方面仍然相当无能。

该文介绍了一种提高视觉语言模型推理性能和一致性的两阶段训练框架。第一阶段使用逐步推理样本微调VLMs，第二阶段结合语言模型反馈增强训练过程，产生高度一致和可靠的推理链。该框架有效提升了推理性能和一致性。