💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

本文介绍了大模型(LLMs)在文本评估中的问题,包括偏见和不一致性,并提出了一种新的评估范式,使用成对偏好排序来对LLMs进行评估。作者设计了两种高效的偏好搜索算法(PairS-greedy和PairS-beam),并在多个数据集上进行了实验,结果显示PairS在与人类评分的一致性方面表现更好。

🎯

关键要点

  • 大模型(LLMs)在文本评估中存在偏见和不一致性的问题。
  • 提出了一种新的评估范式,使用成对偏好排序来评估LLMs。
  • 设计了两种高效的偏好搜索算法:PairS-greedy和PairS-beam。
  • PairS算法通过利用不确定性和传递性假设,提供高效准确的偏好排序。
  • LLM评估器对提示设计敏感,受到多种偏见影响,导致与人类判断不一致。
  • 现有的校准技术未能有效对齐LLM评估器。
  • PairS-greedy算法基于完全传递性假设,复杂度为O(NlogN)。
  • PairS-beam算法在宽松传递性假设下,通过似然值进行集束搜索,优化偏好排序。
  • 实验结果显示PairS在多个数据集上与人类评分一致性更高。
  • PairS仅需约30%的对比次数即可达到其他基线方法的偏好排序质量。
➡️

继续阅读