小红花·文摘

本文介绍了名为 Themis 的大语言模型评审机制，旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能，适应变化的需求，研究表明其与人类偏好的高度一致性，具有广泛的应用潜力。

BriefGPT - AI 论文速递 ·

本文探讨了自然语言生成（NLG）的评估方法，分析了基于大型语言模型（LLM）的评估框架及其优缺点。研究发现，GPT-4在多语言评估中表现最佳，且与人类评判一致性较高。文章提出了协同评估流程CoEval，强调人机合作在NLG评估中的重要性，并指出未来研究方向和挑战。

BriefGPT - AI 论文速递 ·