Finisky Garden ·

基于LLM评估搜索系统

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

微软的Bing搜索组提出了一种使用大型语言模型（LLM）生成相关性标签的方法，通过真实用户反馈和选择合适的LLM提示词，可以准确生成标签，降低成本、提高速度，并改进搜索系统性能。

🎯

关键要点

搜索系统的评估依赖于相关性标签，这些标签标注文档对搜索者的有用性。
真实用户反馈是获取高质量标签的理想来源，但大规模收集困难。
微软Bing搜索组提出通过真实用户反馈选择合适的LLM和提示词生成标签。
实验表明，LLM生成的标签准确性与人工标注者相当，且在复杂查询中表现良好。
获得高质量标签的标准路径包括用户研究、反馈收集和标注员培训。
使用LLM生成标签的过程涉及Prompt Tuning，优化提示词结构以提高准确性。
标签评估通过混淆矩阵和平均绝对误差（MAE）来衡量机器与人工标签的一致性。
不同提示词组合对LLM的表现有显著影响，最佳组合包括描述、叙述和多个评审员。
Bing通过结合LLM与人工标注者来提高标签生成的准确性和效率。
Bing定期监控标签质量，通过人工验证和重新标注确保系统健康。
使用LLM标注文档的相关性是可行的，性能优于众包评委，已在Bing中有效应用。

❓

延伸问答

如何使用LLM生成搜索系统的相关性标签？

通过真实用户反馈选择合适的LLM和提示词，LLM可以大规模生成标签，准确性与人工标注者相当。

微软Bing如何提高搜索系统的标签质量？

Bing结合LLM与人工标注者，通过监控和重新标注确保标签质量，降低偏差和错误。

使用LLM生成标签的优势是什么？

LLM生成标签的速度更快、成本更低，且准确性优于众包评委，适合大规模应用。

如何评估LLM生成的标签与人工标签的一致性？

通过混淆矩阵和平均绝对误差（MAE）来衡量机器与人工标签之间的差异。

LLM生成标签的Prompt Tuning是什么？

Prompt Tuning是优化提示词结构的过程，以提高LLM生成标签的准确性。

Bing如何监控标签生成的质量？

Bing定期抽取标签样本进行人工验证，监控分歧率和变化，以确保系统健康。

🏷️

标签

Bing搜索组 llm 大型语言模型微软搜索系统相关性标签

➡️

继续阅读