本文介绍了名为 Themis 的大语言模型评审机制,旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能,适应变化的需求,研究表明其与人类偏好的高度一致性,具有广泛的应用潜力。
本文介绍了NLG-Eval和Themis,用于自然语言生成任务评估的大规模语料库和大型语言模型。Themis通过多角度一致性和评分偏好的方法进行训练,具有灵活、可解释的评估能力,并在各种NLG任务上表现出优越性能。它还在未见任务上具有良好的泛化能力,超越了其他评估模型,包括GPT-4。
完成下面两步后,将自动完成登录并继续当前操作。