小红花·文摘

我们开发了一种使用少于100M参数的小规模神经信息检索模型进行训练的方法，仅需10个金标准相关性标签。该方法依赖于使用语言模型生成文档的合成查询，并且关键步骤在于根据训练质量自动优化生成这些查询的LM提示。在BIRCO基准测试中的实验中，我们发现使用我们的方法训练的模型优于RankZephyr，并且与RankLLama竞争力相当，后者是使用超过100K标签训练的70亿参数模型。这些发现指出自动提示优化对于合成数据集生成的重要性。