Qdrant - Vector Database ·

电子商务搜索中的稀疏嵌入微调 | 第3部分：评估与困难负样本

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

本文讨论了电子商务搜索中的稀疏嵌入微调，重点评估了SPLADE模型及其困难负样本挖掘。经过微调的SPLADE模型在nDCG@10指标上比BM25提高了28%，强调了领域特定训练的重要性。文章还分析了稀疏与密集向量的混合搜索效果，以及困难负样本挖掘（ANCE）对模型性能的提升。总体而言，微调显著改善了查询扩展、术语加权和电商词汇的表现。

🎯

关键要点

微调后的SPLADE模型在nDCG@10指标上比BM25提高了28%。
领域特定训练对模型性能提升至关重要，微调模型比未微调的SPLADE模型提高了19%。
混合搜索并不总是优于单一稀疏模型，强大的领域调优稀疏模型在某些情况下表现更佳。
困难负样本挖掘（ANCE）可以在基本训练的基础上增加5-10%的性能提升。
生产延迟为10-20毫秒，主要瓶颈在于查询编码，而非检索过程。
微调后模型在查询扩展、术语加权和电商词汇方面表现显著改善。

🔎

延伸解读

领域特定训练的重要性

文章强调了领域特定训练对模型性能的显著提升。微调后的SPLADE模型在电商搜索中表现出色，较未微调模型提高了19%。这表明，针对特定领域的数据进行训练，可以有效提升搜索结果的相关性和准确性，尤其是在电商这样竞争激烈的环境中。

混合搜索的局限性

尽管混合搜索（稀疏与密集向量结合）在某些情况下可以提升性能，但文章指出，在强大的领域调优稀疏模型面前，混合搜索可能反而会降低效果。这提醒我们，在选择搜索策略时，应根据模型的具体表现和数据特性进行评估，而不是盲目追求复杂的组合。

困难负样本挖掘的价值

困难负样本挖掘（ANCE）为模型提供了额外的5-10%性能提升。通过从当前模型的检索结果中挖掘难以区分的负样本，模型能够更好地学习其错误。这一方法在电商搜索中尤为重要，因为用户的搜索意图往往复杂，模型需要不断优化以提高用户体验。

❓

延伸问答

微调后的SPLADE模型在nDCG@10指标上比BM25提高了多少？

微调后的SPLADE模型在nDCG@10指标上比BM25提高了28%。

领域特定训练对模型性能的影响是什么？

领域特定训练使微调模型比未微调的SPLADE模型提高了19%。

混合搜索在使用微调SPLADE模型时效果如何？

使用微调SPLADE模型时，混合搜索反而降低了性能，SPLADE-only得分为0.413，而混合得分为0.405。

困难负样本挖掘（ANCE）对模型性能的提升有多大？

困难负样本挖掘（ANCE）可以在基本训练的基础上增加5-10%的性能提升。

微调后模型在查询扩展和术语加权方面有什么改善？

微调后模型在查询扩展和术语加权方面表现显著改善，能够更好地处理电商词汇。

生产延迟主要受什么因素影响？

生产延迟主要瓶颈在于查询编码，延迟为10-20毫秒。

🏷️