视觉 - 语言模型能否以第一人称视角思考?
原文中文,约200字,阅读约需1分钟。发表于: 。Vision-language models have the potential to improve first-person perspective tasks, as demonstrated by the evaluation of eighteen popular models on the EgoThink benchmark, constructed with...
本文提出了一种评估大视觉语言模型能力的方法,使用大语言模型作为评判者,构建综合的触石视觉对话数据集和整合图像注释,实现对多模态对话质量的直接评估,为大视觉语言模型的评估提供参考。