ConQRet:用大型语言模型评估检索增强论证的细粒度基准
📝
内容提要
本研究针对在复杂和有争议的话题上评估检索增强论证的困难,提出了一种新的自动化评估方法。通过引入ConQRet基准,它提供了基于真实世界证据的长篇复杂人类撰写论证,使得评价检索效果和论证质量更加全面和可解释。本研究的主要发现是,提出的LLM评估方法能显著提高论证质量的评估效率并推动计算论证领域的发展。
🏷️
标签
➡️