小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用Transformers.js和句子嵌入构建语义搜索

本文介绍了如何使用Transformers.js和句子嵌入构建客户端语义搜索引擎,包括句子嵌入的工作原理、余弦相似度的计算、嵌入的生成与缓存,以及可重用的SemanticSearch类的创建。通过比较句子的语义而非关键词,语义搜索提高了搜索结果的相关性。

使用Transformers.js和句子嵌入构建语义搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-05T12:00:01Z
Airtable如何构建其AI功能背后的搜索层

Airtable构建了一个支持自然语言查询的语义搜索系统,面临数据规模、查询速度和隐私等挑战。通过使用Milvus数据库和HNSW索引,Airtable实现了高效的数据处理和快速响应。团队分析用户行为,优化了内存使用,确保系统的高效性和可靠性。

Airtable如何构建其AI功能背后的搜索层

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-05-27T15:30:43Z
在RAG中实现混合语义-词汇搜索

本文介绍了在RAG系统中实现混合语义-词汇搜索的方法,结合BM25词汇搜索与语义搜索,通过互惠排名融合(RRF)进行整合。混合搜索策略有效提升了检索效果,提供了Python实现的详细步骤,包括库的安装、数据集加载、BM25和语义搜索的独立执行及结果融合。通过示例查询,展示了混合搜索的优势。

在RAG中实现混合语义-词汇搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-25T12:00:35Z
使用LLM嵌入和元数据构建上下文感知的Python搜索

本文介绍了如何使用Python构建上下文感知的语义搜索引擎,结合嵌入式相似性和结构化元数据过滤。内容涵盖句子嵌入和余弦相似度的原理,构建元数据感知的搜索索引,以及索引的持久化方法。这些技术能够有效找到与用户查询相关的文档,同时考虑上下文约束。

使用LLM嵌入和元数据构建上下文感知的Python搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-22T12:00:56Z

SharpVector 是一个轻量级的 .NET 向量数据库,专为语义搜索和 RAG 应用设计。它支持内存级文本向量存储与相似度搜索,易于集成,适合本地或嵌入式场景。该项目基于 .NET 8 开发,功能灵活,支持多种向量生成器,适合快速构建 AI 应用。

强烈推荐一个轻量可嵌入的 .NET 向量数据库:SharpVector

dotNET跨平台
dotNET跨平台 · 2026-05-08T00:02:16Z
你所说的语义搜索究竟是什么意思?

文章讨论了语义搜索的概念,比较了传统文本搜索引擎与现代向量数据库的区别,强调了向量搜索在日志和安全分析中的精确匹配需求,以及语义搜索在用户发现和非精确结果中的应用。Qdrant正在扩展视频嵌入和本地代理上下文,以提供高性能的向量搜索服务。

你所说的语义搜索究竟是什么意思?

Stack Overflow Blog
Stack Overflow Blog · 2026-05-05T07:40:00Z
什么是pgvector?

pgvector是一个开源的PostgreSQL扩展,支持存储和搜索向量嵌入,适用于语义搜索和推荐功能。它简化了相似性搜索,能够处理数百万到数千万个向量,支持余弦相似度,并可与Postgres全文搜索结合使用。对于高性能需求,pgvectorscale可扩展pgvector的能力。

什么是pgvector?

Databricks
Databricks · 2026-04-17T06:59:30Z
Ahsan Hadi:pgEdge Vectorizer和RAG服务器:将语义搜索引入PostgreSQL(第二部分)

pgEdge推出了一个新的AI工具包,旨在简化在PostgreSQL上构建AI驱动的搜索应用。pgEdge Vectorizer作为后台进程,自动监控数据变化,生成嵌入并保持搜索索引同步,消除了手动维护的需求。pgEdge RAG Server提供简单的HTTP API,结合向量相似性和关键词匹配,生成基于实际数据的准确回答,使得在PostgreSQL上实现语义搜索变得高效且易于管理。

Ahsan Hadi:pgEdge Vectorizer和RAG服务器:将语义搜索引入PostgreSQL(第二部分)

Planet PostgreSQL
Planet PostgreSQL · 2026-04-15T06:29:33Z
设计解耦:亿级向量搜索

Databricks重新设计了向量搜索系统,以应对从百万到十亿向量的数据集扩展问题。新系统提供标准和存储优化两种部署选项,后者通过分离存储与计算,降低成本和延迟。采用反向文件索引和产品量化等技术,使索引构建速度提高20倍,服务成本降低7倍,适用于语义搜索和推荐系统等应用。

设计解耦:亿级向量搜索

Databricks
Databricks · 2026-03-09T19:00:00Z
Redis中的向量索引:算法、混合搜索与扩展

Redis 8集成了多种向量索引算法,支持高效的大规模相似性搜索,优化数据结构以提升搜索速度,适用于语义搜索和推荐系统等应用。

Redis中的向量索引:算法、混合搜索与扩展

Redis Blog
Redis Blog · 2026-03-08T00:00:00Z
大型语言模型、乐高和LED灯:一位Elastic工程师如何保持活力并以好奇心引领创新

肖恩·汉德利是Elastic公司的高级工程经理,专注于机器学习和大型语言模型。他通过优化工作环境和使用站立桌提高专注力,推动Elastic在前沿技术上的发展,尤其是Elastic推理服务,助力语义搜索和智能助手。他对未来的AI代理充满期待。

大型语言模型、乐高和LED灯:一位Elastic工程师如何保持活力并以好奇心引领创新

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-03-05T08:00:00Z
向量数据库与传统数据库:有什么区别?

构建产品推荐引擎需要结合传统数据库和向量数据库。传统数据库适合处理结构化数据和精确匹配,而向量数据库则用于语义搜索和相似性匹配。两者结合使用能更好地满足现代应用需求。

向量数据库与传统数据库:有什么区别?

Redis Blog
Redis Blog · 2026-03-05T00:00:00Z
利用LLM嵌入构建语义搜索

本文介绍了如何利用句子嵌入和最近邻算法构建语义搜索引擎。与传统关键词搜索相比,语义搜索能够更好地捕捉文本的意义。文章提供了使用Python实现语义搜索的步骤,包括数据集加载、嵌入生成和最近邻搜索,最终展示了如何根据查询返回相似文档。

利用LLM嵌入构建语义搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-03-02T13:37:01Z
向量数据库面临的最常见挑战是什么?

向量数据库在现代AI中扮演重要角色,存储深度学习模型生成的向量嵌入,支持语义搜索和推荐。然而,它们在生产中面临内存消耗、搜索质量下降和数据同步等挑战。使用近似最近邻算法可以提高搜索速度,但在准确性和延迟之间存在权衡。

向量数据库面临的最常见挑战是什么?

Redis Blog
Redis Blog · 2026-03-02T00:00:00Z
即使是生成式人工智能也使用维基百科作为来源

Ryan与Wikimedia Deutschland的AI项目负责人Philippe Saade讨论了Wikidata嵌入项目,团队将3000万条Wikidata条目向量化以支持语义搜索,重点在于减轻抓取负担、维护数据完整性及用户反馈的重要性。

即使是生成式人工智能也使用维基百科作为来源

Stack Overflow Blog
Stack Overflow Blog · 2026-02-20T08:40:00Z
SaaS中的语义搜索:当关键词不足以满足需求时

语义搜索利用向量嵌入和变换神经网络理解用户意图,提升搜索体验。它能处理模糊查询,降低零结果率,适合SaaS应用。实现时需构建嵌入生成基础设施和向量存储,Redis可支持快速向量搜索。主要应用于企业知识管理、客户支持和开发工具,适合自然语言表达需求的场景。

SaaS中的语义搜索:当关键词不足以满足需求时

Redis Blog
Redis Blog · 2026-02-08T00:00:00Z
使用 TimescaleDB 的混合搜索:向量、关键词和时间过滤

向量数据库提升了语义搜索能力,但仅解决了检索问题的一部分。尽管向量嵌入能理解用户意图,但仍面临关键词精确度和时间相关性挑战。混合搜索结合了向量和文本搜索,但可能导致错误答案。时间过滤可确保获取最新信息,设计合适的架构和索引对高效混合搜索至关重要。

使用 TimescaleDB 的混合搜索:向量、关键词和时间过滤

Timescale Blog
Timescale Blog · 2026-02-05T14:06:50Z
MongoDB在Atlas上推出Embedding和Reranking API

MongoDB在Atlas上推出了Embedding和Reranking API,简化了AI检索系统的构建,支持多种数据库,适用于语义搜索和AI助手,提升操作效率。同时发布的Voyage 4系列模型增强了文本和地理分析功能,支持多种嵌入维度。

MongoDB在Atlas上推出Embedding和Reranking API

InfoQ
InfoQ · 2026-02-03T04:53:00Z
向量数据库:生产前需要了解的事项

向量数据库通过将非结构化数据转化为可搜索的数值表示,解决了传统数据库在相似性搜索中的局限性。它们支持高效的语义搜索,适用于推荐系统和自然语言处理等AI应用。选择独立数据库或统一平台会影响性能和复杂性,其中HNSW算法在速度和准确性方面表现最佳。

向量数据库:生产前需要了解的事项

Redis Blog
Redis Blog · 2026-01-29T00:00:00Z
语义搜索与关键词搜索:何时使用各自的方法

构建搜索看似简单,但用户常抱怨搜索结果不准确。不同场景需要不同的搜索方法,语义搜索通过神经网络理解含义,而关键词搜索依赖精确匹配。混合搜索结合两者,既能处理自然语言查询,又能精确识别特定标识符,利用向量索引和倒排索引提升搜索效果,Redis提供支持,简化架构。

语义搜索与关键词搜索:何时使用各自的方法

Redis Blog
Redis Blog · 2026-01-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码