Dropbox Tech Blog ·

利用大型语言模型增强人类标注，提高Dash搜索相关性

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

Dropbox Dash利用检索增强生成（RAG）模式，通过企业搜索获取相关信息并生成回答。它结合人类标注与大型语言模型（LLM）训练搜索排名模型，以提升搜索结果的相关性和质量。Dash通过自动化与人工审核相结合，确保生成的相关性标签准确且可扩展，从而优化搜索体验。

🎯

🔎

Dropbox Dash通过结合人类标注与大型语言模型（LLM）来提升搜索结果的相关性。这种方法不仅提高了标注的准确性，还降低了成本，使得在大规模数据集上进行训练成为可能。人类标注提供了高质量的参考数据，而LLM则能快速生成大量的相关性标签，形成了有效的协同效应。

尽管LLM在生成相关性判断方面具有成本效益和一致性，但其性能依赖于模型质量和指令的清晰度。使用LLM进行评估时，必须经过严格的校准和验证，以确保生成的标签能够反映真实的相关性。这一过程需要持续的监控和调整，以应对模型和产品需求的变化。

❓

Dropbox Dash通过结合人类标注与大型语言模型（LLM）训练搜索排名模型，利用检索增强生成（RAG）模式来提升搜索结果的相关性和质量。

人类标注的优势在于准确性高，但劣势是成本高且难以扩展，且评估过程需要持续培训。

LLM通过分析用户行为和文档与查询的匹配程度，生成相关性标签，并在经过人类审核后进行校准。

通过将LLM生成的判断与人类标注进行比较，进行严格的评估和校准，以确保其质量。

Dash通过分析用户行为与LLM预测的相关性之间的差异，优先处理可能出现错误的案例，以提高模型的准确性。

通过审查模型错误的案例，调整指令或添加缺失的上下文，进行提示优化，以提高评估的准确性。

🏷️