小红花·文摘

研究人员提出了一种新方法，通过合成数据和少量训练步骤获取高质量文本嵌入。该方法利用专有LLMs生成多样化的合成数据，并在合成数据上微调开源的只解码LLMs。实验证明，该方法在文本嵌入基准上表现强大，无需标记数据。同时，使用合成数据和标记数据的混合进行微调时，该模型在BEIR和MTEB基准上取得了最新的技术成果。