一文通透Text Embedding模型：从text2vec、openai-text embedding到m3e、bge

判断哪些文本嵌入模型效果较好，通常需要一个评估指标来进行比较，《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准论文地址：https://arxiv.org/abs/2210.07316MTEB包含8个语义向量任务，涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试，我们建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。

《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》评估了海量文本嵌入模型，包含8个语义向量任务，涵盖58个数据集和112种语言。通过测试33个模型发现，没有一种特定的文本嵌入方法在所有任务中占主导地位。中文海量文本embedding任务排行榜包括Retrieval、STS、PairClassification、Classification、Reranking和Clustering。m3e模型使用in-batch负采样的对比学习方式进行训练，使用了指令数据集和Roberta系列模型。bge模型采用高效预训练和大规模文本微调，使用了RetroMAE预训练算法和难负样本挖掘方法。

LigaAI	Dify.AI
观测云	eolink

一文通透Text Embedding模型：从text2vec、openai-text embedding到m3e、bge

验证