靖待的技术博客 ·

向量检索技术

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

大数据领域检索分为结构化数据检索和非结构化数据检索，非结构化数据向量化表示有线性投影和核方法，深度度量学习提供非线性变换能力，常见的检索算法有NSW、HNSW、IVF_PQ，度量方式有欧氏距离、余弦、内积、杰卡德距离。

🎯

关键要点

大数据领域检索分为结构化数据检索和非结构化数据检索。
非结构化数据检索包括图片、音频、视频等。
向量检索的第一步是对非结构化数据进行向量化表示。
度量学习用于特征表示，传统方法包括线性投影和核方法，但无法处理非线性特征。
深度度量学习通过激活函数提供非线性变换能力。
向量检索定义为在给定向量数据集中检索与查询向量相近的K个向量。
KNN计算量大，通常关注近似近邻（ANN）问题。
向量检索算法需减少候选向量集和降低单个向量计算复杂度。
经典检索算法包括NSW、HNSW和IVF_PQ。
NSW通过贪婪搜索算法记录搜索最优路径。
HNSW使用跳表结构，降低向量检索复杂度。
IVF_PQ通过乘积量化和聚类加倒排减少计算复杂度和候选集。
IVFSQ8和IVF_FLAT是IVF算法的变种，适用于不同场景。
常见的向量度量方式包括欧氏距离、余弦、内积和杰卡德距离。
高召回率排序为FLAT > HNSW > IVFFLAT > IVF_SQ8 > IVF_PQ。
查询响应时间排序为HNSW > IVF_PQ > IVF_SQ8 > IVF_FLAT > FLAT。
资源占用排序为IVF_PQ > IVF_SQ8 > HNSW。
选择算法时需考虑内存、磁盘和数据集规模等因素。

🏷️

标签

向量度量检索算法结构化非结构化

➡️

继续阅读

现代语聊房背后的技术栈：API、云基础设施与实时数据
很少有哪个面向消费者的行业能像语聊房一样把实时通信技术应用到极限。每一路音频流、每一个礼物动效、每一次实时互动背后，都隐藏着令任何实时音视频开发工程师都似...
视频问诊系统如何判断厂商的技术可靠性
选视频问诊供应商时，”技术可不可靠”是最重要也最难判断的维度。市场宣传里每家都说自己稳定、低延迟、高画质。但技术可靠性不是靠一句话能判断的，它需要看几个可以...
一万五刀跑通7530亿参数GLM-5.2：开源模型量化压缩技术全解析
AI模型价格从70万打到1.5万，开源社区是把大厂当韭菜割了吗？ 80%的模型体积被削掉，智商居然还保留82%。一群民间高手在Discord里把7530亿...
chatgpt太夯了！终于手搓出属于自己的博客主题
一直想换一个 Hugo 博客，曾经尝试过用 Manus 开发，最后额度不够，只能算是一个半成品，当时还写文记录了这个过程：拿到Manus邀请码后，我肝了一个
Ubuntu出现新的权限提升漏洞默认桌面版安装受影响可从普通用户提权至root
#安全资讯 Ubuntu 默认桌面版安装环境出现权限提升漏洞，拥有本地用户权限的攻击者可以提权到 root 进而接管系统。出现问题的是 snap-conf...
数字员工的成本账：OpenClaw.NET 如何用工程化实现"成功任务的单位经济学"（下） - 张善友
当"有用智能每人民币"的框架落地到 OpenClaw.NET 的技术栈中，Harness 引擎、MetaSkill DAG、TokenHu...