[笔记] 从 Tokenization 视角看生成式推荐(GR)近几年的发展(2025)

💡 原文中文,约16700字,阅读约需40分钟。
📝

内容提要

生成式推荐模型通过将用户行为数据转化为机器可读格式,将推荐任务视为生成任务。尽管在感知和认知领域已有成功模型,行为领域的推荐模型仍在发展中。本文探讨了生成式推荐的挑战、技术及未来方向,强调了token化在推荐系统中的重要性。

🎯

关键要点

  • 生成式推荐模型将用户行为数据转化为机器可读格式,将推荐任务视为生成任务。
  • 感知世界和认知世界已有成功模型,行为世界的推荐模型仍在发展中。
  • 生成式推荐模型的基础组件之一是action tokenization,将人类可读数据转换为机器可读格式。
  • 生成式模型通过学习底层数据分布生成新样本。
  • 推荐领域的知识非常稀疏,导致传统推荐模型效果不佳。
  • Token化是为了方便计算机处理,将人类可读数据转换为机器可读格式。
  • 生成式推荐模型的tokenization方案包括将用户行为转换为物品ID、文本描述和语义ID。
  • 生成式推荐模型面临的问题包括token空间太大和行为数据稀疏。
  • 基于语言模型的生成式推荐具有丰富的世界知识和强大的自然语言理解能力。
  • 基于语义ID的生成式推荐模型通过多个token联合索引商品,解决了token数量过大的问题。
  • 生成式推荐仍面临冷启动推荐、推理效率和商品tokenization方案等挑战。
  • 生成式推荐模型带来了新的机会,如涌现能力和统一检索与排序的可能性。

延伸问答

生成式推荐模型的基本原理是什么?

生成式推荐模型通过将用户行为数据转化为机器可读格式,将推荐任务视为生成任务,从而生成新的推荐样本。

生成式推荐模型面临哪些主要挑战?

生成式推荐模型面临冷启动推荐、推理效率低和商品tokenization方案等挑战。

什么是token化,它在生成式推荐中有什么作用?

Token化是将人类可读数据转换为机器可读格式的过程,方便计算机处理用户行为数据,以提高推荐系统的效率。

基于语言模型的生成式推荐有什么优势?

基于语言模型的生成式推荐具有丰富的世界知识和强大的自然语言理解能力,能够在少量数据下提供良好的推荐效果。

生成式推荐模型的tokenization方案有哪些?

生成式推荐模型的tokenization方案包括将用户行为转换为物品ID、文本描述和语义ID。

生成式推荐模型如何解决token空间过大的问题?

基于语义ID的生成式推荐模型通过多个token联合索引商品,从而有效减少token数量,解决token空间过大的问题。

➡️

继续阅读