京东科技开发者 ·

向量数据库落地实践

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

本文介绍了京东内部向量数据库vearch的实践经验，包括文本转向量、向量维度、建表参数选择等。还介绍了分片数和副本数的评估方法，以及数据库中的数据记录和表结构。最后，指出向量数据库对大模型应用的重要性，并提出了一些优化方案。

🎯

关键要点

Vearch是京东内部用于高性能相似搜索的弹性分布式向量数据库。
文本转向量通过大模型网关接口实现，使用特定模型进行转换。
向量维度与所用模型相关，具体细节可忽略。
建表参数选择主要依赖于检索模型，推荐使用HNSW。
分片数和副本数应根据实际数据量评估，初期可申请最少资源。
实行db-space一对一方案，简化库的概念，定义通用的space结构。
分段写入向量库的过程包括上传文件、拆分片段和写入数据库。
数据记录包括space记录表、file记录表和paragraph记录表，分别用于管理空间、文件和文档片段。
向量数据库对大模型应用至关重要，能够存储内部数据以提高检索能力。
未来将优化混合检索方案以提高检索准确率。

❓

延伸问答

Vearch是什么？

Vearch是京东内部用于高性能相似搜索的弹性分布式向量数据库。

如何将文本转换为向量？

文本转向量通过大模型网关接口实现，传入对应的模型和待转换的文本即可。

建表时应该选择哪些参数？

建表参数选择主要依赖于检索模型，推荐使用HNSW，并根据具体需求配置相关参数。

如何评估分片数和副本数？

分片数和副本数应根据实际数据量评估，初期可申请最少资源，后续可扩展。

向量数据库对大模型应用有什么重要性？

向量数据库对大模型应用至关重要，能够存储内部数据以提高检索能力。

未来向量数据库的优化方向是什么？

未来将优化混合检索方案以提高检索准确率。

🏷️

标签

vearch 京东分片数副本数向量向量数据库数据库

➡️

继续阅读

数据库内核实验索引
本文介绍了如何从零开始实现LSM-Tree存储引擎，涵盖日志、MemTable、SSTable、Bloom Filter和Compaction等核心概念，...
I hate that I don’t hate this song made with Suno
I would never go so far as to say there's no place for AI in music (I'...
The FBI reportedly won’t investigate ICE anymore
According to the The New York Times, federal agents have been told that the F...
Henrietta Dombrovskaya: Prairie Postgres July Meetup: Proudly Sourced at Midwest!
On July 15, we hosted the second meetup at our new location, the Chicago Inno...
Spark 4.2 has a feature that could retire your vector database
Apache Spark 4.2 launched last week, and it signals an expansion of Spark’s d...
《旧梦》
《旧梦》前世辗转复缠绵，今生相逢缘已浅。红尘旧梦忽惊起，枕边旧人换新人。 -- 2026071...