小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了多维度评估基准PARAPHRASUS，解决了现有释义检测模型评估方式过于简化的问题。研究发现，细粒度评估下的模型能更全面地反映语义理解能力。

PARAPHRASUS : 一个综合基准，用于评估释义检测模型

BriefGPT - AI 论文速递 ·

大型视觉语言模型（LVLMs）存在幻觉问题，研究者提出了多维度评估基准和两阶段评估框架，证明其比现有方法更全面、与人类更相关，并强调了解决幻觉问题的关键平衡。

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

BriefGPT - AI 论文速递 ·