💡
原文中文,约4200字,阅读约需10分钟。
📝
内容提要
微软的Bing搜索组提出了一种使用大型语言模型(LLM)生成相关性标签的方法,通过真实用户反馈和选择合适的LLM提示词,可以准确生成标签,降低成本、提高速度,并改进搜索系统性能。
🎯
关键要点
- 搜索系统的评估依赖于相关性标签,这些标签标注文档对搜索者的有用性。
- 真实用户反馈是获取高质量标签的理想来源,但大规模收集困难。
- 微软Bing搜索组提出通过真实用户反馈选择合适的LLM和提示词生成标签。
- 实验表明,LLM生成的标签准确性与人工标注者相当,且在复杂查询中表现良好。
- 获得高质量标签的标准路径包括用户研究、反馈收集和标注员培训。
- 使用LLM生成标签的过程涉及Prompt Tuning,优化提示词结构以提高准确性。
- 标签评估通过混淆矩阵和平均绝对误差(MAE)来衡量机器与人工标签的一致性。
- 不同提示词组合对LLM的表现有显著影响,最佳组合包括描述、叙述和多个评审员。
- Bing通过结合LLM与人工标注者来提高标签生成的准确性和效率。
- Bing定期监控标签质量,通过人工验证和重新标注确保系统健康。
- 使用LLM标注文档的相关性是可行的,性能优于众包评委,已在Bing中有效应用。
➡️