通过软负采样增强多模态思维链中的语义
原文中文,约300字,阅读约需1分钟。发表于: 。利用软负采样的方法减轻多模式 CoT 中幻觉问题的研究提出了一种理性生成方法(SNSE-CoT)。在传统的对比学习框架中引入了五种方法来生成高度相似但具有不同语义的软负样本,并通过双向边界损失将其应用于多模式 CoT 中,对 ScienceQA 数据集进行了广泛实验,并证明了该方法的有效性。
该论文提出了一种新型流程Visual CoT,利用多模态大型语言模型(MLLMs)的推理能力处理复杂的视觉输入,并提供可解释的思路。实验证明了该框架的有效性,并为更好的推理策略提供了启示。