京东科技开发者 ·

EMNLP 2024 | 突破RQ-SID“沙漏“瓶颈，提高生成式搜推上限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文探讨了生成式搜索/推荐系统中RQ-SID的“沙漏”瓶颈，指出路径稀疏性和长尾分布导致码本利用率不均。提出优化方案以改善数据分布，提升电商搜索推荐系统的效果与泛化能力。

🎯

🔎

沙漏现象导致中间层的码本令牌过度集中，形成一对多和多对一的映射结构。这种现象显著影响了生成式搜索/推荐系统的性能，尤其是在电商场景中，头部标记的表现优于尾部标记，反映出路径稀疏性和长尾分布的负面影响。

针对沙漏现象，本文提出的两种优化方案：移除第二层和自适应调整token分布，均显示出有效性。这些方法不仅提升了模型的性能，还能在不显著增加计算成本的情况下改善推荐效果，具有较强的实用价值。

未来的研究可以集中在优化SID的生成与表征方式，特别是引入时效和统计特征，以满足电商推荐系统对特征的高要求。此外，统一稀疏与密集表征将有助于更好地捕捉特征变化，提升模型的整体性能。

❓

RQ-SID的沙漏现象是指中间层的码本令牌过度集中，导致路径稀疏性和长尾分布，从而限制了生成式搜索/推荐方法的性能。

沙漏现象显著影响电商搜索推荐系统的性能，导致头部标记测试集性能提升，而尾部标记测试集性能较差。

可以通过移除第二层或自适应调整token分布来解决沙漏瓶颈问题，这两种方法都能有效缓解瓶颈效应。

路径稀疏性指匹配路径仅占总路径空间的一小部分，而长尾分布意味着大多数SID集中在少数头部标记上，这两者共同导致了沙漏现象。

实验表明，头部标记测试集性能显著提升，而尾部标记测试集性能较差，验证了沙漏现象对模型性能的负面影响。

未来规划包括优化SID的生产与表征方式，统一稀疏与密集表征，确保链路无损失实现一段式搜索。

🏷️