基于LLM评估搜索系统
原文中文,约4200字,阅读约需10分钟。发表于: 。搜索系统的评估和调优很大程度上依赖于相关性标签——这些标签标注了某个文档对特定搜索和搜索者是否有用。理想情况下,这些标签来自真实的搜索用户,但要大规模收集这些数据非常困难,所以典型的实验依赖于第三方标注人员,但他们也可能产生不准确的标注。标注质量一般通过持续的审核、培训和监控来管理。 微软(Bing搜索组)在SIGIR'24提出了一种“反其道而行之”的方法:从真实的用户获取反馈,并利用这些反...
微软的Bing搜索组提出了一种使用大型语言模型(LLM)生成相关性标签的方法,通过真实用户反馈和选择合适的LLM提示词,可以准确生成标签,降低成本、提高速度,并改进搜索系统性能。