Davidsonian 场景图:提升文本图像生成的细粒度评估可靠性
原文中文,约300字,阅读约需1分钟。发表于: 。评估文本到图像模型的难点在于信实性,本研究提出了一种基于问答生成的评估框架,使用预训练模型自动生成问题和答案,并通过与基于视觉问答的答案比较来评分图像的一致性,同时引入 Davidsonian Scene Graph (DSG) 作为一个模块化的方法来解决问题,最终呈现了包含 1,060 个提示的开源评估基准。
SelfGraphVQA是一种框架,通过预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,改进了图表示在视觉问答任务中的利用。实验结果表明,提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。