京东科技开发者 ·

EMNLP 2024 | 突破RQ-SID“沙漏“瓶颈，提高生成式搜推上限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文探讨了生成式搜索/推荐系统中RQ-SID的“沙漏”瓶颈，指出路径稀疏性和长尾分布导致码本利用率不均。提出优化方案以改善数据分布特征，提升电商搜索推荐系统的效果与泛化能力。

🎯

🔎

RQ-SID中的沙漏现象导致中间层的码本令牌过度集中，形成路径稀疏性和长尾分布。这种现象显著影响了生成式搜索/推荐系统的性能，尤其是在电商场景中，头部标记的推荐效果较好，而尾部标记的性能则明显下降。理解这一现象有助于优化推荐系统的设计。

本文提出的两种优化方案，移除第二层和自适应调整token分布，针对沙漏现象提供了有效的解决思路。特别是自适应token移除策略，能够在保持模型性能的同时，减少长尾效应的影响。这为电商推荐系统的实际应用提供了可行的改进路径。

研究中提到的未来规划包括优化SID的生产与表征方式，以及统一稀疏与密集表征。这些方向不仅能提升生成式搜索/推荐的效果，还能满足对特征的高要求，推动相关技术的进一步发展。关注这些研究动态将有助于把握行业前沿。

❓

RQ-SID的“沙漏”瓶颈是指中间码本令牌过度集中，导致路径稀疏性和长尾分布，从而影响生成式搜索/推荐的性能。

路径稀疏性和长尾分布导致码本利用率失衡，限制了生成式搜索推荐系统的表示能力和性能。

可以通过移除第二层和自适应调整token分布来解决RQ-SID的沙漏现象。

实验表明，头部标记测试集的性能显著提升，而尾部标记测试集的性能较差，验证了沙漏现象的负面影响。

自适应token移除策略有效提升了模型性能，减少了长尾效应的影响，且计算成本与基础模型相近。

未来研究将优化SID的生产与表征方式，统一稀疏与密集表征，并确保链路无损失实现一段式搜索。

🏷️