提升视觉语言模型的链式思维推理
原文中文,约400字,阅读约需1分钟。发表于: 。本文解决了视觉语言模型(VLMs)在链式思维(CoT)推理中缺乏足够详细的训练数据的问题。通过从GPT-4o模型中提取推理依据丰富训练数据,并结合强化学习优化推理质量,显著提升了VLM在基准数据集上的性能和对直接答案预测的泛化能力。这项研究强调了在训练中融合详细推理依据的重要性,以及利用强化学习增强VLM推理能力的策略。
Chain-of-Thought提示可以增强大型语言模型的推理能力,但现有方法效果不佳。为此,提出了CoTGenius框架来自动生成高质量提示,并创建了CoT数据集,对Llama 2-Chat模型进行微调,形成了ChainLM模型。为解决推理误差,提出了步骤级辩论方法,让多个辩论者讨论推理步骤。实验显示,ChainLM在复杂推理问题上表现出色,并分析了数据类别对性能的影响。数据集和代码已发布。