BGE M3 - 嵌入:通过自我知识蒸馏实现多语言、多功能、多粒度的文本嵌入

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

介绍了一种新的嵌入模型M3-Embedding,支持多语言和跨语言检索任务,能够处理不同粒度的输入,通过自知识蒸馏方法和优化批处理策略增强训练质量和嵌入的区分性。M3-Embedding是第一个实现如此通用性的嵌入模型。

🎯

关键要点

  • 介绍了一种新的嵌入模型 M3-Embedding,具有多语、多功能和多粒度的通用性。
  • M3-Embedding 支持 100 多种工作语言,展示了在多语言和跨语言检索任务上的最新性能。
  • 该模型能够同时执行密集检索、多向量检索和稀疏检索,提供统一的模型基础。
  • M3-Embedding 能处理不同粒度的输入,从短句到最长 8192 个标记的长文档。
  • 提出了一种新颖的自知识蒸馏方法,通过集成不同检索功能的相关性得分来增强训练质量。
  • 优化了批处理策略,以确保嵌入的区分性。
  • M3-Embedding 是第一个实现如此强大通用性的嵌入模型,模型和代码将公开。
➡️

继续阅读