本研究提出了多维度评估基准PARAPHRASUS,解决了现有释义检测模型评估方式过于简化的问题。研究发现,细粒度评估下的模型能更全面地反映语义理解能力。
大型视觉语言模型(LVLMs)存在幻觉问题,研究者提出了多维度评估基准和两阶段评估框架,证明其比现有方法更全面、与人类更相关,并强调了解决幻觉问题的关键平衡。
完成下面两步后,将自动完成登录并继续当前操作。