ARTHURCHIAO'S BLOG ·

大模型 RAG 基础：信息检索、文本向量化及 BGE-M3 embedding 实践（2024）

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

本文介绍了RAG技术的基础，包括文本向量化和信息检索。BERT是一种基于transformer的预训练语言模型，能够生成dense embedding。BGE-M3是一种结合了传统sparse embedding和dense embedding优点的学习型embedding。文章还介绍了BGE-M3的工作原理和实战应用。

🎯

关键要点

RAG（检索增强生成）是一种利用信息检索技术增强大模型生成效果的技术。
信息检索技术发展分为三个阶段：基于统计信息的关键字匹配、基于深度学习的上下文和语义理解、学习型稀疏嵌入。
基于统计信息的关键字匹配方法简单，但不理解语义，主要算法包括TF-IDF和BM25。
Word2Vec和BERT是基于深度学习的嵌入技术，BERT通过双向transformer捕获上下文语义。
学习型稀疏嵌入结合了传统稀疏嵌入和深度学习的优点，能够保留关键词搜索能力并利用上下文信息。
BGE-M3是基于BERT的学习型稀疏嵌入模型，具有多功能性、多语言性和多粒度特性。
BGE-M3通过精细的方法捕捉每个token的重要性，生成稀疏嵌入。
BGE-M3的实战应用包括相似度判断和精调，能够提高模型的检索效果。
将BGE-M3模型转为onnx格式可以优化CPU运行速度。

🏷️

继续阅读

大模型推理资源需求计算及使用场景示例
博客自2016年成立以来，逐步接入CDN并添加功能，如音乐墙、动态和时光，至2021年更新了站点地图。
Visual Studio 开发者基础：每位开发者的免费实用工具
Dev Essentials让我重新审视那些因时间或成本未优先考虑的领域。以前令我畏惧的云服务，现在可以轻松尝试，培训路径也变得更加易于获取。
Canva可画推动设计思维的转变与实践
Canva与播客《搞钱女孩》联合举办“38创作夜校”，吸引50多位参与者，旨在将模糊想法转化为可视化方案。Canva利用AI和模板帮助用户快速创意，降低创...
打败GPT-5.2，嵌入真实工业生产，这个大模型什么来头？
思谋科技的IndustryGPT在工业场景中表现优异，超越了GPT-5.2等通用大模型。通过三场考试，IndustryGPT展示了其在工业知识、工程决策能...
AReaL x 昇腾，加速大模型全异步RL训练创新
AReaL框架通过全异步强化学习训练，简化大模型开发，提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controlle...
华为发布五大创新解决方案，推动交通运输行业智能化转型
（全球TMT2026年3月10日讯）在MWC 2026巴塞罗那期间的主题论坛上，华为与客户和伙伴共同探讨交通运 […]

大模型 RAG 基础：信息检索、文本向量化及 BGE-M3 embedding 实践（2024）

内容提要

关键要点

标签

继续阅读