Qdrant - Vector Database ·

为向量搜索而构建

💡 原文英文，约3200词，阅读约需12分钟。

📝

内容提要

向量搜索面临独特挑战，需要专门的解决方案。向量作为高维数据的表示，存储和更新较为复杂。专用向量数据库能够提供高可用性和快速检索，适合动态数据和推荐系统。与传统数据库相比，专用解决方案在处理大规模高维数据时更具优势。

🎯

关键要点

向量搜索面临独特挑战，需要专门的解决方案。
向量是高维数据的表示，存储和更新较为复杂。
专用向量数据库提供高可用性和快速检索，适合动态数据和推荐系统。
与传统数据库相比，专用解决方案在处理大规模高维数据时更具优势。
向量是重的，存储一百万条记录的高维嵌入会占用大量存储空间。
向量是其他数据的变换，更新嵌入模型会导致需要重新索引所有数据。
向量具有固定大小，便于快速访问和比较。
向量数据库更像搜索引擎，设计为可扩展、始终可用且能快速返回搜索结果。
分布式系统在可扩展性方面表现出色，但需要在一致性和可用性之间做出权衡。
ACID模型优先考虑一致性，BASE模型优先考虑可用性。
向量搜索需要基于BASE架构，以满足高可用性和低延迟的需求。
向量索引依赖于高维向量数学，使用近似最近邻（ANN）索引来平衡搜索精度和速度。
HNSW索引是一种流行的向量索引，提供高搜索速度和准确性，但实现复杂。
分段存储结构可以提高搜索速度和索引时间的平衡。
不可变段和可变段的结合优化了搜索速度和内存管理。
过滤在向量搜索中是不可避免的，Qdrant开发了可过滤的HNSW以支持过滤。
向量搜索不仅限于文本搜索扩展，还能促进发现和推荐。
专用向量数据库在处理大数据分析和推荐系统方面表现优越。
专用解决方案能够跟上最新的向量搜索技术进步。
选择专用数据库而非扩展的时机包括高容量实时搜索和动态非结构化数据场景。

🔎

延伸解读

向量搜索的独特挑战

向量搜索面临的主要挑战在于高维数据的存储和更新复杂性。向量作为其他数据的变换，更新嵌入模型时需要重新索引所有数据，这可能导致系统的可用性下降。因此，建议将向量工作负载与主数据库分离，以避免潜在的性能瓶颈。

专用向量数据库的优势

专用向量数据库在处理大规模高维数据时表现优越，能够提供高可用性和快速检索。这些数据库设计为可扩展，适合动态数据和推荐系统，能够有效应对实时搜索需求。与传统数据库相比，专用解决方案更能满足现代应用的复杂需求。

过滤机制的重要性

在向量搜索中，过滤是不可避免的，尤其是在电商推荐等应用中。传统的过滤方法可能导致性能瓶颈，因此开发可过滤的HNSW索引显得尤为重要。这种新方法能够在图遍历过程中进行过滤，提高了搜索的灵活性和效率。

❓

延伸问答

向量搜索面临哪些独特挑战？

向量搜索面临存储和更新复杂性、数据重构需求以及高维数据处理的挑战。

专用向量数据库与传统数据库相比有什么优势？

专用向量数据库在处理大规模高维数据时更具优势，提供高可用性和快速检索，适合动态数据和推荐系统。

什么是HNSW索引，它的特点是什么？

HNSW索引是一种流行的向量索引，提供高搜索速度和准确性，但实现复杂，需结构化系统以支持其性能。

向量搜索如何支持推荐系统？

向量搜索通过分析数据点之间的相似性和差异性，帮助用户发现符合特定需求的推荐项，而不是仅依赖于精确匹配。

为什么选择专用数据库而非扩展数据库？

在高容量实时搜索和动态非结构化数据场景中，专用数据库能提供更好的性能和灵活性，适应快速变化的数据需求。

向量搜索的ACID和BASE模型有什么区别？

ACID模型优先考虑一致性，而BASE模型则优先考虑可用性，适合需要高可用性和低延迟的向量搜索场景。

🏷️