ProJudge: A Multi-Modal Multi-Disciplinary Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。研究表明,开放源代码模型与专有模型之间存在显著性能差距,并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。

🎯

关键要点

  • 本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。
  • 研究发现开放源代码模型与专有模型之间存在显著的性能差距。
  • 通过ProJudge-173k数据集和双阶段微调策略,显著提升了开放源代码模型的评估能力。
➡️

继续阅读