Themis:面向灵活且可解释的自然语言生成评估
原文中文,约300字,阅读约需1分钟。发表于: 。为了解决自然语言生成任务(NLG)的评估问题,本文构建了一个大规模的 NLG 评估语料库 NLG-Eval,并提出了一个专门用于 NLG 评估的大型语言模型 Themis,该模型通过多角度一致性和基于评分偏好的方法进行训练,能够灵活、可解释地进行评估,无需参考,并在各种 NLG 任务上展现出优越的评估性能,同时在未见任务上具有良好的泛化能力,超越了其他评估模型,包括 GPT-4。
本文介绍了NLG-Eval和Themis,用于自然语言生成任务评估的大规模语料库和大型语言模型。Themis通过多角度一致性和评分偏好的方法进行训练,具有灵活、可解释的评估能力,并在各种NLG任务上表现出优越性能。它还在未见任务上具有良好的泛化能力,超越了其他评估模型,包括GPT-4。