超越RAM的关系数据库向量索引

超越RAM的关系数据库向量索引

💡 原文英文,约7400词,阅读约需27分钟。
📝

内容提要

随着现代嵌入模型的发展,向MySQL添加向量索引面临挑战。现有研究多集中于内存数据结构,而关系数据库需处理更大数据集。我们设计了一种混合向量索引,结合内存与磁盘存储,确保在高性能和高召回率下持续更新索引。通过优化插入、合并和重新分配操作,我们的实现满足了用户对关系数据库索引的一致性期望。

🎯

关键要点

  • 现代嵌入模型的发展使得向MySQL添加向量索引面临挑战。
  • 现有研究多集中于内存数据结构,而关系数据库需处理更大数据集。
  • 设计了一种混合向量索引,结合内存与磁盘存储,确保高性能和高召回率。
  • HNSW是一种行业标准的图形数据结构,适用于高效的近似最近邻搜索。
  • HNSW在内存中表现优异,但在关系数据库中面临技术限制。
  • 实现了支持大于RAM的向量索引,以满足用户期望。
  • 混合向量索引由内存中的HNSW索引和磁盘上的发布列表组成。
  • 通过随机采样构建头索引,确保内存使用效率。
  • 设计了增量操作以保持索引的实时更新和高召回率。
  • 引入了分裂、重新分配和合并操作以维护索引性能。
  • 使用版本控制来标记过时向量,优化删除操作。
  • 维护操作确保索引在高负载下仍能保持性能和一致性。
  • 该混合向量索引在可扩展性和性能之间达成了良好的平衡。
➡️

继续阅读