💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
本文介绍了大模型(LLMs)在文本评估中的问题,包括偏见和不一致性,并提出了一种新的评估范式,使用成对偏好排序来对LLMs进行评估。作者设计了两种高效的偏好搜索算法(PairS-greedy和PairS-beam),并在多个数据集上进行了实验,结果显示PairS在与人类评分的一致性方面表现更好。
🎯
关键要点
- 大模型(LLMs)在文本评估中存在偏见和不一致性的问题。
- 提出了一种新的评估范式,使用成对偏好排序来评估LLMs。
- 设计了两种高效的偏好搜索算法:PairS-greedy和PairS-beam。
- PairS算法通过利用不确定性和传递性假设,提供高效准确的偏好排序。
- LLM评估器对提示设计敏感,受到多种偏见影响,导致与人类判断不一致。
- 现有的校准技术未能有效对齐LLM评估器。
- PairS-greedy算法基于完全传递性假设,复杂度为O(NlogN)。
- PairS-beam算法在宽松传递性假设下,通过似然值进行集束搜索,优化偏好排序。
- 实验结果显示PairS在多个数据集上与人类评分一致性更高。
- PairS仅需约30%的对比次数即可达到其他基线方法的偏好排序质量。
➡️