京东科技开发者 ·

【前瞻技术布局】打破“沙漏“现象→提高生成式搜索/推荐的上限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文探讨了生成式搜索/推荐中的“沙漏”现象，指出中间层tokens过于集中导致路径稀疏和长尾分布，影响RQ-SID性能。实验分析后，提出移除第二层和自适应调整token分布的方案，有效提升模型性能，为未来优化奠定基础。

🎯

🔎

沙漏现象导致生成式搜索/推荐中的路径稀疏性和长尾分布，显著影响模型性能。尤其在电子商务领域，头部标记的表现优于尾部标记，造成推荐结果的不均衡。这一现象提醒我们在设计推荐系统时需关注标记分布的均匀性，以提升整体效果。

本文提出的移除第二层和自适应调整token分布的方案，能够有效缓解沙漏现象带来的性能瓶颈。这些方法在实际应用中具有较高的可操作性，尤其适用于需要快速响应的电商场景。未来的优化方向应继续探索如何在保持性能的同时，减少计算成本。

研究中提到的未来规划包括优化SID的生产与表征方式，以及统一稀疏与密集表征。这些方向不仅能提升模型的推荐准确性，还能增强其对复杂特征的处理能力。关注这些优化策略将有助于推动生成式搜索/推荐技术的进一步发展。

❓

“沙漏”现象是指中间层tokens过于集中，导致路径稀疏和长尾分布，影响模型性能。

沙漏现象导致模型在头部标记和尾部标记测试集上的性能差异，显著影响模型的整体表现。

可以通过移除第二层tokens或自适应调整token分布来缓解沙漏现象。

RQ-SID在电子商务领域表现出色，但受到沙漏现象的影响，限制了其性能。

第二层tokens表现出低熵、高基尼系数和大标准差，表明其分布不均匀。

未来规划包括优化SID的生产与表征方式，统一稀疏与密集表征，确保链路无损失实现一段式搜索。

🏷️