京东科技开发者 ·

EMNLP 2024 | 突破RQ-SID“沙漏“瓶颈，提高生成式搜推上限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文探讨了生成式搜索/推荐系统中RQ-SID的“沙漏”瓶颈，指出路径稀疏性和长尾分布导致码本利用率不均。提出优化方案以改善数据分布特征，提升电商系统的性能和泛化能力。

🎯

🔎

沙漏现象导致中间层的码本令牌过度集中，造成路径稀疏性和长尾分布。这种现象显著影响了生成式搜索/推荐系统的性能，尤其是在电商场景中，头部标记的表现优于尾部标记，反映出模型在处理长尾数据时的局限性。

本文提出的优化方案，如移除第二层和自适应调整token分布，能够有效缓解沙漏现象的影响。这些方法不仅提升了模型的性能，还保持了计算成本的可控性，为电商系统的实际应用提供了可行的解决方案。

未来的研究可以集中在优化SID的生成与表征方式，尤其是引入时效和统计特征，以满足电商领域对特征的高要求。此外，统一稀疏与密集表征的策略也将有助于提升模型的泛化能力和表现。

❓

RQ-SID的“沙漏”瓶颈是指中间码本令牌过度集中，导致路径稀疏性和长尾分布，从而影响生成式搜索/推荐系统的性能。

造成RQ-SID“沙漏”现象的主要原因是路径稀疏性和长尾分布，这导致码本利用率失衡。

可以通过移除第二层和自适应调整token分布来优化RQ-SID，从而改善生成式搜索的性能。

沙漏现象导致头部标记测试集性能显著优于尾部标记测试集，影响了模型的整体表现。

TIGER方法通过RQ生成语义标识符，能够有效捕捉电商数据中的复杂层次关系和语义特征，从而提升推荐性能。

未来的研究方向包括优化SID的生产与表征方式，统一稀疏与密集表征，以及保证链路无损失实现一段式搜索。

🏷️