多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

南洋理工大学的研究人员开源了LMMs-Eval,一个专为多模态大型模型设计的评估框架。该框架提供了统一接口、一键式启动和透明可复现等特性。LMMs-Eval的目标是为多模态模型提供简化的评测任务,以节省时间和成本。此外,他们还推出了LMMs-Eval-Lite和LiveBench来兼顾广覆盖、低成本和零数据泄露。未来,他们计划进一步完善评估方法。

🎯

关键要点

  • 南洋理工大学研究人员开源了LMMs-Eval评估框架,专为多模态大型模型设计。

  • LMMs-Eval提供统一接口、一键式启动和透明可复现等特性,旨在简化多模态模型的评测任务。

  • LMMs-Eval-Lite和LiveBench是为兼顾广覆盖、低成本和零数据泄露而推出的工具。

  • LMMs-Eval框架自发布以来获得了1.1K Stars和30+贡献者,包含80多个数据集和10多个模型。

  • LMMs-Eval的标准化测评框架包括统一接口、一键式启动和透明可复现性。

  • LMMs-Eval的目标是解决评测的广覆盖、低成本和零数据泄露的难题。

  • LMMs-Eval-Lite旨在构建简化的基准测试集,以提供快速的模型性能信号。

  • LiveBench通过动态更新的数据集评估模型性能,确保零污染和低成本。

  • LiveBench从多个新闻媒体和论坛收集数据,确保信息的及时性和真实性。

  • 未来将提供动态更新的榜单,展示多模态模型的最新评测数据。

延伸问答

LMMs-Eval框架的主要功能是什么?

LMMs-Eval框架提供统一接口、一键式启动和透明可复现等特性,旨在简化多模态模型的评测任务。

LMMs-Eval-Lite和LiveBench有什么区别?

LMMs-Eval-Lite旨在构建简化的基准测试集以降低评测成本,而LiveBench通过动态更新的数据集评估模型性能,确保零污染和低成本。

LMMs-Eval框架是由哪个机构开发的?

LMMs-Eval框架是由南洋理工大学的研究人员开发的。

LMMs-Eval框架如何确保评测的透明性和可复现性?

LMMs-Eval内置统一的logging工具,记录模型回答的每一题及其正确与否,确保评测的透明性和可复现性。

LMMs-Eval框架的目标是什么?

LMMs-Eval的目标是找到一种覆盖广、成本低、零数据泄露的方法来评估多模态模型。

LiveBench是如何收集评测数据的?

LiveBench通过从新闻媒体和论坛收集数据,构建自动化管道,确保信息的及时性和真实性。

➡️

继续阅读