小红花·文摘

《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》评估了海量文本嵌入模型，包含8个语义向量任务，涵盖58个数据集和112种语言。通过测试33个模型发现，没有一种特定的文本嵌入方法在所有任务中占主导地位。中文海量文本embedding任务排行榜包括Retrieval、STS、PairClassification、Classification、Reranking和Clustering。m3e模型使用in-batch负采样的对比学习方式进行训练，使用了指令数据集和Roberta系列模型。bge模型采用高效预训练和大规模文本微调，使用了RetroMAE预训练算法和难负样本挖掘方法。

一文通透Text Embedding模型：从text2vec、openai-text embedding到m3e、bge

结构之法算法之道 ·

该文介绍了京东健康如何使用开源的中文嵌入模型M3E来生成向量，并使用Vearch进行高性能相似搜索。Vearch是一个弹性分布式系统，支持CPU和GPU版本，实时添加数据到索引，支持多个向量字段和批量操作，支持数值字段范围过滤和字符串字段标签过滤，支持多种索引方式和Python SDK本地快速开发验证。同时，该文提供了向量生成示例和查询语句。

M3E/OpenAi+vearch内容查重实践 | 京东云技术团队

京东科技开发者 ·