本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。研究表明,开放源代码模型与专有模型之间存在显著性能差距,并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。
完成下面两步后,将自动完成登录并继续当前操作。