小红花·文摘 - 小红花技术领袖俱乐部

Knowhere 是 Milvus 的向量索引执行引擎，集成了 Faiss、Hnswlib 和 Annoy 等库，支持软删和多种相似度计算。它通过统一的 VecIndex 接口处理索引构建与查询，优化性能并简化开发流程，同时支持自动 SIMD 选择以提升计算效率。

【向量检索引擎】Knowhere：向量索引执行引擎与插件契约

土法炼钢兴趣小组的博客 ·

从零开始实现向量搜索：一步一步的教程

从零开始实现向量搜索：一步一步的教程

MachineLearningMastery.com ·

文本嵌入模型将文本转换为数值向量，支持文本相似度计算和信息检索等任务。MTEB排行榜评估了250多个模型，涵盖多语言和多任务，适用于不同领域。选择模型时需考虑任务类型、语言支持和计算资源等因素。

文本嵌入模型的选择 - 蝈蝈俊

蝈蝈俊 ·

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

余弦相似度可能没用？对于某些线性模型，相似度甚至不唯一

机器之心 ·

什么是语义匹配？如何使用自然语言处理在文档中查找词语

什么是语义匹配？如何使用自然语言处理在文档中查找词语

freeCodeCamp.org ·

介绍VecSpark

介绍VecSpark

DEV Community ·

1-bit-embedding

1-bit-embedding

Yunfeng's Simple Blog ·

三种自然语言聚类分析处理的工具和使用体验

三种自然语言聚类分析处理的工具和使用体验

dotNET跨平台 ·

本文介绍了多种针对抽象意义表示（AMR）的新方法和度量标准，如 S$^2$match、SMARAGD 和 SEMBLEU。这些方法在 AMR 图的相似度计算、解析准确性和多语言句子嵌入性能方面表现出色，显示了在语义评估和生成文本质量评估中的潜力。研究表明，这些新指标和算法在控制偏差和提高准确性方面优于传统方法。

重新匹配：改善结构和语义相似度的本地知识图匹配的鲁棒且高效方法

BriefGPT - AI 论文速递 ·

句子嵌入是句子的向量表示，可以通过池化方法计算。池化是一种常用方法，通过BERT模型的[CLS]标记嵌入来表示整个句子。句子嵌入可用于文本分类和相似度计算等任务。使用句子转换器库可以获得更高质量的嵌入。选择合适的模型可根据任务需求和性能指标评估。嵌入的生态系统包括工具、数据库和相关研究。

语句嵌入简单入门教程

极道 ·

如何计算向量数据的相似度？

Jacky's Blog ·

稀疏向量与倒排索引

稀疏向量与倒排索引

Qdrant - Vector Database ·