本文探讨了大语言模型(LLM)评估的进展,提出了CoEval和OLMES等新方法,以提高评估的准确性和一致性。研究表明,LLM能够有效评估长文本,节省时间并减少异常值。此外,引入CompassJudger-1模型和JudgerBench基准,旨在统一评估不同模型的性能,推动评估方法的进步。
本论文提出了一种完全记录且实用的、可以重现语言模型评估的开放标准OLMES。该标准考虑了不同评估实践因素,并支持较小和较大模型之间的比较。
完成下面两步后,将自动完成登录并继续当前操作。