京东科技开发者 ·

EMNLP 2024 | 突破RQ-SID“沙漏“瓶颈，提高生成式搜推上限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文探讨了生成式搜索/推荐系统中RQ-SID的“沙漏”瓶颈，指出路径稀疏性和长尾分布导致码本利用率不均。提出优化方案以改善数据分布，提升电商搜索推荐系统的效果和泛化能力。

🎯

🔎

沙漏现象在生成式搜索/推荐系统中表现为中间层码本的过度集中，导致路径稀疏性和长尾分布。这种现象显著影响了模型的性能，尤其是在电商场景中，头部标记的推荐效果优于尾部标记，反映出模型在处理长尾数据时的局限性。

文章提出的两种优化方案，移除第二层和自适应调整token分布，旨在改善沙漏现象带来的负面影响。自适应token移除策略在实验中表现出色，能够有效提升模型性能，减少长尾效应的影响，为实际应用提供了可行的解决思路。

未来的研究可以集中在优化SID的生成与表征方式，特别是引入时效和统计特征，以满足电商推荐系统对特征的高要求。此外，统一稀疏与密集表征的策略将有助于提升模型的泛化能力，确保在复杂数据环境中的有效性。

❓

RQ-SID的“沙漏”瓶颈表现为中间层码本令牌过度集中，导致路径稀疏性和长尾分布，影响生成式搜索/推荐系统的性能。

主要原因是路径稀疏性和长尾分布，这导致码本利用率失衡，显著影响电商场景下的生成式任务性能。

可以通过移除第二层和自适应调整token分布两种方法来解决沙漏现象，实验表明自适应token移除策略效果最佳。

沙漏现象导致模型在头部标记测试集上性能提升显著，而在尾部标记测试集上性能明显较差，造成结果偏差。

通过对第二层标记分布的统计分析，发现其表现出低熵、高基尼系数和大标准差，表明分布不均匀，支持沙漏现象的存在。

未来规划包括优化SID的生产与表征方式，统一稀疏与密集表征，以及保证链路无损失实现一段式搜索。

🏷️