小红花·文摘

本研究提出KOFFVQA基准，旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题，结合图像和10个评分标准，通过客观评估提高评分一致性和可靠性，以更好地评估不同语言模型的表现。