ProJudge: A Multi-Modal Multi-Disciplinary Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。研究表明,开放源代码模型与专有模型之间存在显著性能差距,并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。
🎯
关键要点
-
本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。
-
研究发现开放源代码模型与专有模型之间存在显著的性能差距。
-
通过ProJudge-173k数据集和双阶段微调策略,显著提升了开放源代码模型的评估能力。
🏷️