InfoQ ·

扩展人类判断：Dropbox如何利用大型语言模型提升RAG系统的标注效率

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Dropbox通过结合人类标注和大型语言模型（LLMs）生成的标签，提升了文档检索的相关性和标注效率。尽管LLM存在局限性，但人类校准显著改善了RAG系统的性能。

🎯

🔎

在RAG系统中，文档检索的质量直接影响生成答案的准确性。Dropbox通过结合人类标注与大型语言模型（LLM），有效提升了标注效率，解决了传统人类标注成本高、速度慢的问题。这种方法不仅降低了成本，还提高了一致性，适合大规模文档集的处理。

尽管LLM在生成标签方面具有优势，但其判断并不完美，因此需要人类校准。通过对小规模高质量数据集的标注，LLM可以更好地理解相关性，从而提高标注的准确性。这一过程强调了人类判断在机器学习中的不可替代性，确保了最终结果的可靠性。

在标注过程中，上下文信息至关重要。例如，Dropbox内部的术语可能与外部含义不同。LLM通过额外搜索和理解内部术语，能够显著提高标注的准确性。这表明，在使用LLM时，充分考虑上下文可以有效提升系统性能。

❓

Dropbox通过结合人类标注和大型语言模型（LLMs）来提升文档检索的相关性和标注效率。

RAG系统的瓶颈是文档检索质量，这直接影响生成答案的质量。

人类标注存在成本高、速度慢和不一致的问题。

LLM生成的标签可以大规模扩展，成本更低且更一致。

人类校准的LLM标注方法是通过小规模高质量数据集来校准LLM评估器。

上下文对判断相关性至关重要，LLM可以进行额外搜索以理解内部术语，从而提高标注准确性。

🏷️