Apple Machine Learning Research ·

提升视觉语言模型的链式思维推理

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

链式思维推理在视觉语言模型中至关重要，但现有训练方法依赖短注释，导致推理泛化差。本文提出两阶段后训练策略：首先用GPT-4o生成增强短答案，然后利用短答案作为强化学习的奖励，优化模型推理。实验表明，该方法显著提升了推理能力和答案预测的泛化性。

🎯

🔎

链式思维推理在视觉语言模型中扮演着关键角色，它不仅提升了模型的解释性，还增强了用户对模型输出的信任度。理解这一点对于开发更可靠的人工智能系统至关重要，尤其是在需要复杂推理的应用场景中。

现有的训练方法主要依赖短注释，导致模型在处理需要详细解释的推理任务时表现不佳。这一局限性提醒研究者在设计训练数据时，应考虑多样化的注释形式，以提高模型的泛化能力和推理准确性。

提出的两阶段后训练策略通过结合GPT-4o生成的增强短答案和强化学习，显著提升了模型的推理能力。这种方法不仅优化了模型的表现，还为未来的视觉语言模型训练提供了新的思路和方法论。

❓

链式思维推理提升了解释性和可信度，是视觉语言模型中的关键因素。

现有训练方法依赖短注释，导致推理泛化能力差，尤其在需要详细解释的任务上表现不佳。

本文提出了两阶段后训练策略，首先用GPT-4o生成增强短答案，然后利用短答案作为强化学习的奖励优化模型推理。

短答案被用作正确性指标，构建正确和错误的对，从而校准模型推理能力。

实验结果显示在基准数据集上链式思维推理显著提升，答案预测的泛化性增强。

该研究为视觉语言模型的链式思维训练提供了重要数据资源，并展示了后训练中结果奖励的有效性。

🏷️