ARTHURCHIAO'S BLOG ·

[笔记] 从 Tokenization 视角看生成式推荐（GR）近几年的发展（2025）

💡 原文中文，约16700字，阅读约需40分钟。

📝

内容提要

生成式推荐模型通过将用户行为数据转化为机器可读格式，将推荐任务视为生成任务。尽管在感知和认知领域已有成功模型，行为领域的推荐模型仍在发展中。本文探讨了生成式推荐的挑战、技术及未来方向，强调了token化在推荐系统中的重要性。

🎯

🔎

生成式推荐模型在推荐系统中面临冷启动、推理效率和商品token化等挑战。这些问题可能影响模型的实际应用效果。然而，生成式推荐也带来了新的机遇，如涌现能力和统一检索与排序的可能性，值得关注。

Token化是生成式推荐模型的核心技术之一，它将用户行为数据转化为机器可读格式。有效的token化方案可以显著提高模型的训练效率和推荐效果，因此在设计推荐系统时应重视token化的策略选择。

基于语言模型的生成式推荐能够利用丰富的世界知识和强大的自然语言理解能力，提供更精准的推荐。这种方法在数据稀疏的情况下仍能取得良好效果，适合在用户行为数据有限的场景中应用。

❓

生成式推荐模型通过将用户行为数据转化为机器可读格式，将推荐任务视为生成任务，从而生成新的推荐样本。

生成式推荐模型面临冷启动推荐、推理效率低和商品tokenization方案等挑战。

Token化是将人类可读数据转换为机器可读格式的过程，方便计算机处理用户行为数据，以提高推荐系统的效率。

基于语言模型的生成式推荐具有丰富的世界知识和强大的自然语言理解能力，能够在少量数据下提供良好的推荐效果。

生成式推荐模型的tokenization方案包括将用户行为转换为物品ID、文本描述和语义ID。

基于语义ID的生成式推荐模型通过多个token联合索引商品，从而有效减少token数量，解决token空间过大的问题。

🏷️