Ruri:日本通用文本嵌入模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了日本通用文本嵌入模型不足的问题,特别是在缺乏数据集和专业知识的背景下。通过使用大型语言模型生成的合成数据集训练嵌入模型,构建数据集过滤和知识蒸馏的重排名器,从而提供了一个创新的方法。研究结果表明,这些通用文本嵌入模型具有良好的性能,推动了日本自然语言处理领域的发展。
本报告介绍了开源多语言E5文本嵌入模型的训练方法和评估结果,提供了三种不同大小的嵌入模型,平衡了推理效率和嵌入质量。训练过程遵循英文E5模型的方法,包括对10亿个多语言文本对进行对比预训练和微调。引入了一种新的指令调整嵌入模型,性能与最先进英文模型相当。模型发布信息可在指定网址找到。