MMTEB:大规模多语言文本嵌入基准

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了大规模多语言文本嵌入基准(MMTEB),涵盖500多个评估任务和250种语言。尽管大规模语言模型表现优异,最优模型“multilingual-e5-large-instruct”以560百万参数领先,并通过新下采样方法降低了计算成本。

🎯

关键要点

  • 本研究提出了大规模多语言文本嵌入基准(MMTEB)。
  • MMTEB 涵盖超过500个评估任务和250种语言。
  • 现有文本嵌入评估受限于语言、领域和任务多样性。
  • 尽管大规模语言模型表现优异,最优模型为“multilingual-e5-large-instruct”。
  • 该模型拥有560百万参数,并通过新下采样方法降低计算成本。
➡️

继续阅读