视觉 CoT:在多模态语言模型中释放连续思维推理
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
AI系统通过思维链在语言模态上实现多步推理进展。研究提出两个关键见解,并通过DDCoT在多模态推理中保持临界态度。DDCoT生成的解释提升了语言模型的推理能力,展示了泛化性和可解释性。