本研究探讨了大型语言模型(LLM)在相关性评估中的局限性,比较了二元和等级相关性判断方法,结果显示不同方法在与人类偏好的对齐和信息检索应用效果上存在显著差异。
完成下面两步后,将自动完成登录并继续当前操作。