FollowBench:用于大型语言模型的多级细粒度约束追踪基准

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

VisIT-Bench是一个用于评估面向实际应用的指令跟随视觉语言模型的基准测试。该基准测试收集了70个指令家族,数据集包含592个测试查询。VisIT-Bench对参与者是动态的,实践者只需在项目网站上提交其模型的响应。

🎯

关键要点

  • VisIT-Bench是一个用于评估指令跟随视觉语言模型的基准测试。
  • 该基准测试收集了70个指令家族,涵盖各种任务。
  • 数据集包含592个测试查询,涉及基本识别、游戏和创造性生成等任务。
  • 指令条件描述揭示了指令特定因素,例如无障碍设施的询问。
  • 通过人工验证和自动评估,量化模型与参考之间的质量差距。
  • 最佳指令跟随模型在27%的比较中超越了GPT-4参考模型。
  • 参与者可在项目网站上提交模型响应,数据、代码和排行榜可在visit-bench.github.io上找到。
➡️

继续阅读