京东科技开发者 ·

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

生成式推荐系统利用大语言模型（LLM）简化推荐流程，提升效果，克服传统系统局限。其优势包括流程简化、知识融合和规模效应。京东在广告推荐和搜索中成功应用生成式召回，显著提高点击率和消费。未来将继续优化模型规模和用户行为输入，以进一步提升推荐效果。

🎯

🔎

生成式推荐系统通过简化推荐流程和知识融合，克服了传统系统的局限性。其直接生成推荐结果的能力，不仅提高了用户体验，还在冷启动和新领域推荐中表现优异。这种转变使得电商平台能够更好地满足用户需求，提升整体业务效果。

在生成式推荐系统中，推理优化至关重要。京东通过Nvidia TensorRT-LLM实现了显著的推理延迟降低和吞吐量提升。这种优化不仅提高了系统的响应速度，还降低了部署成本，确保了实时推荐的可行性。

未来，生成式推荐系统将继续在模型规模和用户行为输入上进行优化。扩大模型规模有助于提升推荐效果，而在计算资源和推理时间之间找到平衡则是关键。通过技术创新，京东希望在不显著增加成本的前提下，进一步提升推荐系统的性能。

❓

生成式推荐系统的主要优势包括简化推荐流程、知识融合和规模效应。

京东通过生成式召回算法在广告推荐中成功实施，显著提高了点击率和消费。

生成式推荐系统利用LLM的泛化能力，在新用户和新商品的冷启动场景中提供更优的推荐效果。

NVIDIA TensorRT-LLM通过多种优化特性显著降低推理延迟并提升吞吐量，满足线上业务需求。

生成式推荐系统的模型规模越大，推荐效果越好，突破了传统模型的性能瓶颈。

未来将重点提升模型规模、扩展用户行为输入，并融合稀疏与稠密模型以实现联合推理。

🏷️