ProJudge: A Multi-Modal Multi-Disciplinary Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。研究表明,开放源代码模型与专有模型之间存在显著性能差距,并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。
🎯
关键要点
- 本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。
- 研究发现开放源代码模型与专有模型之间存在显著的性能差距。
- 通过ProJudge-173k数据集和双阶段微调策略,显著提升了开放源代码模型的评估能力。
➡️