本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。
文本嵌入模型的相似性评分受输入长度偏见影响,长文本通常得分较高,导致相关性评估不准确。即使相似文本得分更高,长文本的偏见使得相似性评分不可靠。因此,应结合其他方法判断文本的实际相关性,而非仅依赖余弦相似度。
完成下面两步后,将自动完成登录并继续当前操作。