多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

南洋理工大学的研究人员开源了LMMs-Eval,一个专为多模态大型模型设计的评估框架。该框架提供了统一接口、一键式启动和透明可复现等特性。LMMs-Eval的目标是为多模态模型提供简化的评测任务,以节省时间和成本。此外,他们还推出了LMMs-Eval-Lite和LiveBench来兼顾广覆盖、低成本和零数据泄露。未来,他们计划进一步完善评估方法。

🎯

关键要点

  • 南洋理工大学研究人员开源了LMMs-Eval评估框架,专为多模态大型模型设计。
  • LMMs-Eval提供统一接口、一键式启动和透明可复现等特性,旨在简化多模态模型的评测任务。
  • LMMs-Eval-Lite和LiveBench是为兼顾广覆盖、低成本和零数据泄露而推出的工具。
  • LMMs-Eval框架自发布以来获得了1.1K Stars和30+贡献者,包含80多个数据集和10多个模型。
  • LMMs-Eval的标准化测评框架包括统一接口、一键式启动和透明可复现性。
  • LMMs-Eval的目标是解决评测的广覆盖、低成本和零数据泄露的难题。
  • LMMs-Eval-Lite旨在构建简化的基准测试集,以提供快速的模型性能信号。
  • LiveBench通过动态更新的数据集评估模型性能,确保零污染和低成本。
  • LiveBench从多个新闻媒体和论坛收集数据,确保信息的及时性和真实性。
  • 未来将提供动态更新的榜单,展示多模态模型的最新评测数据。
➡️

继续阅读