VisualWebBench:多模态 LLM 在网页理解和解释中的发展程度如何?
原文中文,约400字,阅读约需1分钟。发表于: 。多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V...
本文介绍了ench多模式基准测试,用于评估多模式大型语言模型在网页任务中的能力。通过评估14个开源MLLMs,揭示了重要挑战和性能差距。进一步分析发现当前MLLMs的限制,包括缺乏基础知识和在低分辨率图像输入下表现不佳。ench将成为研究界宝贵的资源,并为创建更强大和多功能的MLLMs做出贡献。