小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型语言模型（LLM）在相关性评估中的局限性，比较了二元和等级相关性判断方法，结果显示不同方法在与人类偏好的对齐和信息检索应用效果上存在显著差异。

Benchmarking LLM-based Relevance Judgment Methods

BriefGPT - AI 论文速递 ·