小红花·文摘

SimLM是一种用于稠密段落检索的预训练方法，通过瓶颈架构将段落信息压缩成密集向量，并使用替换的语言建模目标来提高样本效率。实验证明，SimLM在多个大规模段落检索数据集上比强基线和ColBERTv2等方法都有显著改进。