MMTEB: Massive Multilingual Text Embedding Benchmark

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了大规模多语言文本嵌入基准(MMTEB),涵盖500多个评估任务和250种语言。最优模型“multilingual-e5-large-instruct”以560百万参数领先,并通过新方法降低计算成本。

🎯

关键要点

  • 本研究提出了大规模多语言文本嵌入基准(MMTEB),旨在解决现有文本嵌入评估的局限性。

  • MMTEB覆盖超过500个高质量控制的评估任务及250种语言。

  • 尽管大规模语言模型在特定语言和任务类别上表现优异,最优模型“multilingual-e5-large-instruct”凭借560百万参数仍能取得领先。

  • 该模型通过新的下采样方法显著降低了计算成本。

➡️

继续阅读