评估文本到视觉生成与图像到文本生成
原文中文,约400字,阅读约需1分钟。发表于: 。通过引入 VQAScore 和 GenAI-Bench,本研究在评估生成式人工智能方面取得了重要进展,并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。
该研究提出了一种新的视觉问答基准,用于评估文本生成视觉语言模型的能力,并与辨别性视觉语言模型进行比较。研究建议利用语义层次结构为细粒度分类任务中的答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。通过应用该基准于视觉语言模型,详细比较了它们在对象、行为和属性分类方面的能力。该研究为视觉语言建模领域的进展奠定了基础。