视觉语言模型能否取代基于OCR的视觉问答管道？零售案例研究

本研究针对当前视觉问答（VQA）任务中基于OCR的多步骤处理流程进行分析，探讨了预训练视觉语言模型（VLMs）的有效性。通过零售数据集，研究发现这些模型在回答基本问题时表现良好，但在处理细粒度分类任务和抽象折扣概念时存在显著不足，提示了VLMs的局限性和潜在的改进方向。

该研究通过提出创新的评估方法和修正现有的视觉问答基准，推进了对文本生成视觉语言模型能力的理解。他们提出了一种新的视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。他们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。他们进行了人工评估研究，并采用了最终的度量标准。他们将基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。该研究为更精确、有意义的评估奠定了基础，促进了视觉语言建模领域的有针对性进展。

ocr 语言模型