CompassJudger-1:一体化评估模型助力模型评估与演进
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大语言模型(LLMs)在评估中的不准确性和人类评估的高成本进行改进,提出了开源的一体化评估模型CompassJudger-1。该模型具备多种评估功能,并搭建了新的基准JudgerBench,以统一评估不同模型的性能,促进评估方法的进步。
这篇论文研究了多种语言模型作为判断者的表现,强调Cohen's kappa对齐度的重要性。结果显示,Llama-3 70B和GPT-4 Turbo优于人类,而JudgeLM-7B和Contains的对齐度比人类低34分。错误分析为未来使用语言模型作为判断者提供了经验。