A Comprehensive Guide to Text Embedding Models: From text2vec and openai-text embedding to m3e and bge
💡
原文约200字/词,阅读约需1分钟。
📝
内容提要
《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》评估了海量文本嵌入模型,包含8个语义向量任务,涵盖58个数据集和112种语言。通过测试33个模型发现,没有一种特定的文本嵌入方法在所有任务中占主导地位。中文海量文本embedding任务排行榜包括Retrieval、STS、PairClassification、Classification、Reranking和Clustering。m3e模型使用in-batch负采样的对比学习方式进行训练,使用了指令数据集和Roberta系列模型。bge模型采用高效预训练和大规模文本微调,使用了RetroMAE预训练算法和难负样本挖掘方法。
🎯
关键要点
- 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》评估海量文本嵌入模型,包含8个语义向量任务,涵盖58个数据集和112种语言。
- 在MTEB上对33个模型进行基准测试,发现没有一种特定的文本嵌入方法在所有任务中占主导地位。
- 中文海量文本embedding任务排行榜包括Retrieval、STS、PairClassification、Classification、Reranking和Clustering。
- m3e模型使用in-batch负采样的对比学习方式进行训练,使用了指令数据集和Roberta系列模型。
- bge模型采用高效预训练和大规模文本微调,使用了RetroMAE预训练算法和难负样本挖掘方法。
- m3e模型在句对数据集上进行训练,使用300W+的指令微调数据集。
- bge模型的技术亮点包括高效预训练、难负样本挖掘和Instruction Tuning策略。
- RetroMAE预训练算法通过句子级别的重建任务提升模型的语义表征能力。
- 难负样本挖掘是一种提高句子嵌入质量的方法,广泛应用于bge模型的训练中。
➡️