小红花·文摘

在同一张英伟达L20 GPU卡上，可以同时运行bge-m3和bge-reranker模型。建议使用不同端口部署或设置GPU内存限制，以避免资源竞争。监控GPU使用情况和服务状态，确保性能和故障隔离。生产环境推荐使用Kubernetes管理资源。

多个模型复用同一张GPU卡方案

安志合的学习博客 ·

在安装NVIDIA Container Toolkit之前，需确保已安装NVIDIA GPU驱动和Docker。根据操作系统使用相应命令安装工具包并配置Docker运行时。验证GPU支持后，可部署BGE-M3和BGE-Reranker模型，并执行命令启动服务进行测试。

Docker部署bge-m3/bge-reranker模型

安志合的学习博客 ·

【教程】基于DeepSeek-R1的个人AI知识库，全本地部署，可断网使用

jax - 走在路上 ·

本文探讨了将文本嵌入任务从Hugging Face迁移至自建的Ollama，以提高效率。Ollama是一个开源工具，简化了大型语言模型的运行和管理，支持多种操作系统。通过使用Docker Compose搭建Ollama，并选择适合繁体中文的bge-m3模型，显著提升了处理速度。最终，Ollama在Dify中的应用展示了其在文本嵌入方面的潜力。

離開抱抱臉: 讓Dify擁抱Ollama / Leaving Hugging Face: Embracing Ollama with Dify

布丁布丁吃什麼？ ·

寻找最佳的开源嵌入模型用于检索增强生成（RAG）

Timescale Blog ·

本文介绍了RAG技术的基础，包括文本向量化和信息检索。BERT是一种基于transformer的预训练语言模型，能够生成dense embedding。BGE-M3是一种结合了传统sparse embedding和dense embedding优点的学习型embedding。文章还介绍了BGE-M3的工作原理和实战应用。

大模型 RAG 基础：信息检索、文本向量化及 BGE-M3 embedding 实践（2024）

ARTHURCHIAO'S BLOG ·