Dropbox如何构建可扩展的企业知识搜索上下文引擎

Dropbox如何构建可扩展的企业知识搜索上下文引擎

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

Dropbox工程师介绍了Dropbox Dash的上下文引擎,强调基于索引的检索和知识图谱的应用。该系统通过内容预处理和知识图谱提升企业AI的检索效率,简化API调用。团队还利用语言模型评估检索质量,优化提示和排名逻辑,推动企业AI发展。

🎯

关键要点

  • Dropbox工程师介绍了Dropbox Dash的上下文引擎,强调基于索引的检索和知识图谱的应用。
  • 该系统通过内容预处理和知识图谱提升企业AI的检索效率,简化API调用。
  • Dropbox VP Josh Clemm指出,企业工作分布在多个SaaS应用中,导致需要额外基础设施来安全检索敏感信息。
  • Dash的架构依赖于内容的预处理,而非运行时推理检索,使用词汇搜索和密集向量的混合。
  • 尽管这种方法增加了复杂性和存储成本,但Dropbox认为投资是值得的,因其带来了离线排名实验和可预测的查询性能。
  • Dash应用的一个主要组成部分是使用知识图谱创建商业媒体(如人员、文档、会议等)之间的关系模型。
  • 团队通过将知识信息视为上下文增强的一部分,而非查询的另一层,来解决图数据库的延迟和查询模式变化问题。
  • Dropbox观察到,当多个工具异步使用时,语言模型的性能下降,因此团队将检索整合到少数高层工具中。
  • MCP的创建者对使用多个工具时的上下文窗口消耗表示担忧,认为每个工具的添加需要仔细管理。
  • Dropbox强调了大规模标签评估的重要性,使用语言模型作为评判者来测量和评分检索质量。
  • Dash团队使用DSPy框架优化提示,能够管理超过30个提示,加快模型切换。
  • Dash团队的方法与其他企业知识助手的模式相似,表明在企业AI中将上下文视为一流系统的趋势正在增长。

延伸问答

Dropbox Dash的上下文引擎是如何工作的?

Dropbox Dash的上下文引擎依赖于内容的预处理和知识图谱,通过混合词汇搜索和密集向量来提升检索效率。

Dropbox为什么选择使用知识图谱?

Dropbox使用知识图谱来创建商业媒体之间的关系模型,以提高检索的相关性和效率。

Dropbox Dash如何处理多个SaaS应用的数据?

Dropbox Dash通过预处理和规范化来自多个SaaS应用的数据,简化了API调用,确保安全检索敏感信息。

Dropbox Dash在检索质量评估中使用了什么方法?

Dropbox使用语言模型作为评判者来测量和评分检索质量,从而优化提示和排名逻辑。

Dash团队如何优化提示和模型切换?

Dash团队使用DSPy框架管理超过30个提示,实现更快的模型切换,减少手动重写的需求。

Dropbox Dash的架构有什么优势和挑战?

Dash的架构通过预处理内容提高了查询性能,但也增加了复杂性和存储成本。

➡️

继续阅读