机器之心 ·

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

本文介绍了大模型（LLMs）在文本评估中的问题，包括偏见和不一致性，并提出了一种新的评估范式，使用成对偏好排序来对LLMs进行评估。作者设计了两种高效的偏好搜索算法（PairS-greedy和PairS-beam），并在多个数据集上进行了实验，结果显示PairS在与人类评分的一致性方面表现更好。

🎯

❓

大模型在文本评估中存在偏见和不一致性的问题，受到提示设计和多种偏见的影响，导致与人类判断不一致。

PairS算法通过成对偏好排序来评估大模型，提供高效准确的偏好排序，改善与人类评分的一致性。

PairS-greedy基于完全传递性假设，复杂度为O(NlogN)，而PairS-beam在宽松传递性假设下，通过似然值进行集束搜索，优化偏好排序。

实验结果显示，PairS在多个数据集上与人类评分的一致性更高，仅需约30%的对比次数即可达到其他基线方法的偏好排序质量。

现有的校准技术未能有效对齐LLM评估器，主要是因为评估标准的错位，而非评估分数分布的偏见。

PairS算法通过成对偏好排序来评估，利用不确定性和传递性假设，提供更对齐人类判断的评估结果，从而减少偏见。

🏷️