小红花·文摘

本研究提出了ProJudgeBench，这是第一个用于评估多模态大语言模型（MLLM）过程判断能力的基准。研究表明，开放源代码模型与专有模型之间存在显著性能差距，并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。

BriefGPT - AI 论文速递 ·

本研究提出了一个新的框架，利用奖励建模方法和模拟高质量演示来训练对齐语言模型，避免了对已对齐的LLMs的依赖。实验结果表明，该模型在对InstructGPT或人工注释指令训练的开放源代码模型中表现良好。在使用GPT-4作为评判员的A/B测试中，7B大小的模型表现优异，平均获胜率约为75%。

BriefGPT - AI 论文速递 ·