小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大模型基础设施的演变,涵盖训练、推理、RAG和Agent等技术,介绍了适合工程师的新技术栈及其应用,包括开源和商业解决方案。

大模型基础设施工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了RAG(检索增强生成)中的存储与检索层,重点介绍向量索引算法的选择和量化方法,以及2024-2026年工业界的趋势。文章分为四部分:算法底层、产品选型、工程实操和图RAG与趋势,提供实用的参数和代码示例。向量检索主要使用近似最近邻(ANN)算法,推荐HNSW作为工业标准,并结合量化技术以降低内存占用。最后,GraphRAG结合知识图谱与向量检索,提升多跳推理能力。

【大模型基础设施工程】18:向量库与图 RAG

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

RAG(检索增强生成)是解决大语言模型(LLM)结构性缺陷的关键。它通过知识解耦和外部存储检索,降低幻觉率,实现知识快速更新,确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询,涉及文档解析、清洗、切片、嵌入和检索等环节,高质量的文档解析和有效的检索策略是其成功的基础。

【大模型基础设施工程】17:RAG 工程全景

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
一分钟读论文:《MASS-RAG:多智能体协同的检索增强生成》

论文《MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation》提出了一种多智能体协同处理检索证据的方法,旨在提高在噪声和异构上下文下的答案准确性。该方法将证据处理分为四个阶段,由不同智能体完成,显著降低了幻觉率并增强了鲁棒性,适用于多种场景。

一分钟读论文:《MASS-RAG:多智能体协同的检索增强生成》

Micropaper
Micropaper · 2026-04-22T00:00:00Z

本文探讨了大模型基础设施的必要性与发展历程,强调大模型的特点,如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型,帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键,推理侧的重要性将超过训练侧。

【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

RAG模型在处理查询时效率低下,无法有效整合知识。Karpathy提出的LLM Wiki通过预编译知识,创建结构化的维基,解决了这一问题。该方法在文档摄取时进行编译,更新知识库,避免信息丢失,适用于个人知识管理和长期研究,能持续积累和综合知识,提升信息的组织性和可用性。

从RAG到知识编译

Finisky Garden
Finisky Garden · 2026-04-16T03:43:00Z

文章讨论了RAG(检索增强生成)模型的效率问题,提出Karpathy的LLM Wiki概念,强调知识应在入库时进行结构化编译,而非临时检索。LLM Wiki通过生成摘要和更新相关页面,持续维护知识库,降低维护成本,适合个人知识管理和长期研究。尽管RAG有其应用场景,但LLM Wiki在深度理解和知识积累方面更具优势。

从RAG到知识编译

Finisky Garden
Finisky Garden · 2026-04-16T00:39:28Z
Ahsan Hadi:pgEdge Vectorizer和RAG服务器:将语义搜索引入PostgreSQL(第二部分)

pgEdge推出了一个新的AI工具包,旨在简化在PostgreSQL上构建AI驱动的搜索应用。pgEdge Vectorizer作为后台进程,自动监控数据变化,生成嵌入并保持搜索索引同步,消除了手动维护的需求。pgEdge RAG Server提供简单的HTTP API,结合向量相似性和关键词匹配,生成基于实际数据的准确回答,使得在PostgreSQL上实现语义搜索变得高效且易于管理。

Ahsan Hadi:pgEdge Vectorizer和RAG服务器:将语义搜索引入PostgreSQL(第二部分)

Planet PostgreSQL
Planet PostgreSQL · 2026-04-15T06:29:33Z
RAG中的分块:策略、权衡与常见错误

本文讨论了在检索增强生成(RAG)管道中,文档分块的重要性。分块策略影响检索精度、索引大小和查询延迟。常见的分块方法包括固定大小分块、递归分块和语义分块。选择合适的分块策略需考虑文档类型和查询模式。较小的分块适合精确检索,而较大的分块则有助于叙述性查询。

RAG中的分块:策略、权衡与常见错误

Redis Blog
Redis Blog · 2026-04-13T00:00:00Z
如何使用RAG、ChromaDB和记忆构建一个AI驱动的私人文档搜索应用

文章讨论了如何使用LangChain和ChromaDB构建基于大语言模型的问答应用,重点在于处理非结构化数据,利用向量数据库进行信息存储和检索。通过数据加载、分块和相似性排名等步骤,开发者可以创建具有记忆功能的复杂应用,提高信息检索的准确性和效率。

如何使用RAG、ChromaDB和记忆构建一个AI驱动的私人文档搜索应用

The New Stack
The New Stack · 2026-04-10T16:00:00Z

In this article, the author explores how hierarchical agentic RAG systems coordinate specialized workers through structured orchestration to improve accuracy, reliability, and explainability in...

Article: Building Hierarchical Agentic RAG Systems: Multi-Modal Reasoning with Autonomous Error Recovery

InfoQ
InfoQ · 2026-04-09T09:00:00Z
提高检索增强生成(RAG)结果的五种重排序模型

本文介绍了五种重排序模型,以提高检索增强生成(RAG)系统的结果相关性。重排序在RAG流程中至关重要,通过评估候选项的相关性来优化最终答案。推荐的模型包括Qwen3-Reranker-4B、NVIDIA nv-rerankqa-mistral-4b-v3、Cohere rerank-v4.0-pro、jina-reranker-v3和BAAI bge-reranker-v2-m3。选择合适的重排序器时需考虑数据、延迟和成本等因素。

提高检索增强生成(RAG)结果的五种重排序模型

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-06T12:00:52Z
导致RAG管道崩溃的笔记本电脑归还

文章讨论了RAG(检索增强生成)管道中的问题,特别是如何通过结合向量相似性和结构化SQL来提高检索准确性。作者指出,语义相似性与事实正确性不同,强调了检索准确性存在差距。提出三种查询模式以解决文档过时和权限隔离问题,并建议将向量和结构化数据存储在同一数据库中,以简化操作和提高一致性。

导致RAG管道崩溃的笔记本电脑归还

The New Stack
The New Stack · 2026-04-03T11:00:00Z

Claude Code的RAG机制与传统RAG不同,它采用动态检索策略,无需离线索引。其四层检索架构逐步注入上下文,提升了检索的灵活性和精确度。通过多轮循环检索,Claude Code优化了搜索过程,克服了传统RAG的固定策略限制。

剖析Claude Code的RAG机制

Finisky Garden
Finisky Garden · 2026-04-02T15:54:23Z

Claude Code 的 RAG 机制采用动态检索策略,无需离线索引。模型根据上下文自主决定搜索内容和次数,分为四层检索架构,提升了检索的灵活性和精准度。通过子 Agent 和结果裁剪,优化了上下文管理,显著提高了效率。

拆解 Claude Code 的 RAG 机制

Finisky Garden
Finisky Garden · 2026-04-02T15:51:07Z

This article introduces Context-Augmented Generation (CAG) as an architectural refinement of RAG for enterprise systems. It shows how a Spring Boot-based context manager can incorporate user...

Article: Beyond RAG: Architecting Context-Aware AI Systems with Spring Boot

InfoQ
InfoQ · 2026-04-02T09:00:00Z
混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

混合搜索结合了BM25和向量检索,克服了纯向量和关键词搜索的不足,提升了检索准确性,适用于技术文档及法律医疗领域。通过双路径处理,优化查询结果,降低LLM成本,提高上下文质量。Redis支持混合搜索,简化操作,适合构建RAG系统和智能代理。

混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

Redis Blog
Redis Blog · 2026-04-01T00:00:00Z
Salesforce AI 研究院发布 VoiceAgentRAG:一款双代理内存路由器,可将语音 RAG 检索延迟降低 316 倍

Salesforce AI团队推出了VoiceAgentRAG,采用双代理架构,通过快速响应者和慢思考者解决语音AI延迟问题。该系统检索速度提升至316倍,缓存命中率达到75%,在主题连贯对话中可达95%。

Salesforce AI 研究院发布 VoiceAgentRAG:一款双代理内存路由器,可将语音 RAG 检索延迟降低 316 倍

实时互动网
实时互动网 · 2026-03-31T03:00:28Z
从RAG到多智能体涌现:构建AI知识系统的完整方法论与实践路径解析

本文探讨了构建AI知识系统的四层结构,强调知识组织与标签体系的重要性,提出通过信息管道、本地记忆、自动进化和智能体碰撞实现智能体的自我学习与进化,从而提升人类在认知框架设计中的核心地位。

从RAG到多智能体涌现:构建AI知识系统的完整方法论与实践路径解析

极道
极道 · 2026-03-24T00:39:00Z
如何构建和优化AI中的RAG以获得可靠的答案

RAG(检索增强生成)结合信息检索与文本生成,通过外部数据源获取信息,生成准确响应,减少AI幻觉,提升生成质量,适用于客服聊天机器人等。构建RAG系统需关注数据、检索与生成,确保信息相关性和安全性,Meilisearch可优化检索过程,提升系统可靠性。

如何构建和优化AI中的RAG以获得可靠的答案

meilisearch blog
meilisearch blog · 2026-03-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码