小红花·文摘

本文探讨了大语言模型（LLM）评估的进展，提出了CoEval和OLMES等新方法，以提高评估的准确性和一致性。研究表明，LLM能够有效评估长文本，节省时间并减少异常值。此外，引入CompassJudger-1模型和JudgerBench基准，旨在统一评估不同模型的性能，推动评估方法的进步。

BriefGPT - AI 论文速递 ·

本论文提出了一种完全记录且实用的、可以重现语言模型评估的开放标准OLMES。该标准考虑了不同评估实践因素，并支持较小和较大模型之间的比较。

BriefGPT - AI 论文速递 ·