我们开发了一种使用少于100M参数的小规模神经信息检索模型进行训练的方法,仅需10个金标准相关性标签。该方法依赖于使用语言模型生成文档的合成查询,并且关键步骤在于根据训练质量自动优化生成这些查询的LM提示。在BIRCO基准测试中的实验中,我们发现使用我们的方法训练的模型优于RankZephyr,并且与RankLLama竞争力相当,后者是使用超过100K标签训练的70亿参数模型。这些发现指出自动提示优化对于合成数据集生成的重要性。
完成下面两步后,将自动完成登录并继续当前操作。