InfoQ ·

Dropbox如何构建可扩展的企业知识搜索上下文引擎

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Dropbox工程师介绍了Dropbox Dash的上下文引擎，强调基于索引的检索和知识图谱的应用。该系统通过内容预处理和知识图谱提升企业AI的检索效率，简化API调用。团队还利用语言模型评估检索质量，优化提示和排名逻辑，推动企业AI发展。

🎯

关键要点

Dropbox工程师介绍了Dropbox Dash的上下文引擎，强调基于索引的检索和知识图谱的应用。
该系统通过内容预处理和知识图谱提升企业AI的检索效率，简化API调用。
Dropbox VP Josh Clemm指出，企业工作分布在多个SaaS应用中，导致需要额外基础设施来安全检索敏感信息。
Dash的架构依赖于内容的预处理，而非运行时推理检索，使用词汇搜索和密集向量的混合。
尽管这种方法增加了复杂性和存储成本，但Dropbox认为投资是值得的，因其带来了离线排名实验和可预测的查询性能。
Dash应用的一个主要组成部分是使用知识图谱创建商业媒体（如人员、文档、会议等）之间的关系模型。
团队通过将知识信息视为上下文增强的一部分，而非查询的另一层，来解决图数据库的延迟和查询模式变化问题。
Dropbox观察到，当多个工具异步使用时，语言模型的性能下降，因此团队将检索整合到少数高层工具中。
MCP的创建者对使用多个工具时的上下文窗口消耗表示担忧，认为每个工具的添加需要仔细管理。
Dropbox强调了大规模标签评估的重要性，使用语言模型作为评判者来测量和评分检索质量。
Dash团队使用DSPy框架优化提示，能够管理超过30个提示，加快模型切换。
Dash团队的方法与其他企业知识助手的模式相似，表明在企业AI中将上下文视为一流系统的趋势正在增长。

🔎

延伸解读

企业知识检索的挑战

Dropbox Dash的上下文引擎应对了企业在多个SaaS应用中分散工作的挑战。不同的API和权限结构使得安全检索敏感信息变得复杂，因此需要额外的基础设施来确保数据的安全性。企业在选择工具时应关注这些潜在的复杂性和风险。

预处理与实时推理的权衡

Dash的架构依赖于内容的预处理，而非实时推理检索。这种方法虽然增加了复杂性和存储成本，但却能提高查询性能和结果的相关性。企业在设计知识检索系统时，需要权衡实时性与效率之间的关系。

知识图谱的应用价值

知识图谱在Dash中的应用帮助建立了商业媒体之间的关系模型。通过将知识信息视为上下文增强的一部分，Dropbox有效解决了图数据库的延迟问题。这表明，企业在构建知识管理系统时，知识图谱的整合是提升检索效率的重要手段。

语言模型的评估机制

Dropbox强调了使用语言模型进行检索质量评估的重要性。由于传统的点击率信号不再适用，企业需要探索新的评估方法，以确保检索结果的准确性和相关性。这种创新的评估机制为企业AI的发展提供了新的思路。

❓

延伸问答

Dropbox Dash的上下文引擎是如何工作的？

Dropbox Dash的上下文引擎依赖于内容的预处理和知识图谱，通过混合词汇搜索和密集向量来提升检索效率。

Dropbox为什么选择使用知识图谱？

Dropbox使用知识图谱来创建商业媒体之间的关系模型，以提高检索的相关性和效率。

Dropbox Dash如何处理多个SaaS应用的数据？

Dropbox Dash通过预处理和规范化来自多个SaaS应用的数据，简化了API调用，确保安全检索敏感信息。

Dropbox Dash在检索质量评估中使用了什么方法？

Dropbox使用语言模型作为评判者来测量和评分检索质量，从而优化提示和排名逻辑。

Dash团队如何优化提示和模型切换？

Dash团队使用DSPy框架管理超过30个提示，实现更快的模型切换，减少手动重写的需求。

Dropbox Dash的架构有什么优势和挑战？

Dash的架构通过预处理内容提高了查询性能，但也增加了复杂性和存储成本。

🏷️