MiCEval:通过图像描述与推理步骤揭示多模态思维链的质量
发表于: 。本研究针对多模态思维链(MCoT)缺乏自动评估方法的问题,提出了一种新的评估框架MiCEval,旨在评估推理链的正确性及其描述和每一步推理的质量。关键发现显示,MiCEval的逐步评估方法与人类判断的对齐度高于现有基于余弦相似度或微调的方法,具有更强的实用价值。
本研究针对多模态思维链(MCoT)缺乏自动评估方法的问题,提出了一种新的评估框架MiCEval,旨在评估推理链的正确性及其描述和每一步推理的质量。关键发现显示,MiCEval的逐步评估方法与人类判断的对齐度高于现有基于余弦相似度或微调的方法,具有更强的实用价值。