本文提出了“可分性”指标,以解决生成语言偏好评分不一致的问题。通过可分性采样评估生成实例的适用性,实验表明高可分性值能提高评分一致性,并帮助识别有价值的测试基准。此外,可分性被纳入ELO评分,提升了LLM偏好评估的可靠性和效率。
完成下面两步后,将自动完成登录并继续当前操作。