VHELM:视觉语言模型的整体评估
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了当前视觉语言模型(VLM)评估中对公平性、多语言能力和毒性等关键方面忽视的问题。通过扩展HELM框架,提出了VHELM方法,综合多种数据集,提供对VLM在视觉感知、知识、推理等9个方面的全面评估。研究发现,专注效率的模型在偏见基准测试中表现不佳,强调了模型评估标准化的重要性。
视觉语言模型(VLMs)取得突破,强调评估人类偏好的重要性。推出了WildVision-Arena(WV-Arena)平台,用于收集人类偏好。WV-Bench从8,000个用户中选出500个高质量样本,使用GPT-4评估VLMs,与Claude-3-Sonnet比较,表现优于其他基准。分析显示,GPT-4V在简单任务中表现良好,但在复杂上下文和空间推理上仍有挑战。VLMs在故意引发时存在幻觉和安全问题。我们发布数据以促进研究。