小红花·文摘

本研究提出了一种保形风险控制框架，旨在解决图像标题评估指标的局限性，特别是对单个词错误的细粒度评估和不确定性校准，从而显著提升了CLIPScore的可靠性。

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

BriefGPT - AI 论文速递 ·

该研究提出了一种新的细粒度评估方法，通过自动生成细微差异的测试字幕，提升视频-文本检索模型对细微差异的理解能力，并揭示当前评估基准的不足。

Beyond Coarse Matching: Fine-Grained Evaluation in Video-Text Retrieval

BriefGPT - AI 论文速递 ·

通过创新评估方法和修正视觉问答基准，推进对文本生成视觉语言模型能力的理解。提出新的视觉问答基准，细粒度评估文本生成视觉语言模型，并与辨别性视觉语言模型进行比较。利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。进行人工评估研究，并采用最终的度量标准。将基准应用于视觉语言模型，并比较它们在对象、行为和属性分类方面的能力。促进了视觉语言建模领域的有针对性进展。

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

BriefGPT - AI 论文速递 ·