小红花·文摘

生成式推荐模型通过将用户行为数据转化为机器可读格式，将推荐任务视为生成任务。尽管在感知和认知领域已有成功模型，行为领域的推荐模型仍在发展中。本文探讨了生成式推荐的挑战、技术及未来方向，强调了token化在推荐系统中的重要性。

[笔记] 从 Tokenization 视角看生成式推荐（GR）近几年的发展（2025）

ARTHURCHIAO'S BLOG ·

[笔记] 从 Tokenization 视角看生成式推荐（GR）近几年的发展（2025）

ARTHURCHIAO'S BLOG ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

机器之心 ·

基础自然语言处理

DEV Community ·

本研究提出了GroverGPT-2模型，旨在解决经典机器学习与模拟量子算法的问题。该模型基于大语言模型，能够处理量子电路表示，提供逻辑结构和可解释性。研究表明，GroverGPT-2有效捕获量子电路的逻辑，为量子计算的教育和研究开辟了新方向。

GroverGPT-2: Simulating Grover's Algorithm via Chain-of-Thought Reasoning and Quantum-Native Tokenization

BriefGPT - AI 论文速递 ·

本研究提出了一种通用项目标记化方法UTGRec，旨在解决生成推荐中的域特定性问题。UTGRec通过多模态大型语言模型和树状结构代码本实现内容的离散编码。实验结果表明，UTGRec在多个数据集上优于传统推荐方法，展现出强大的跨域迁移能力。

Universal Item Tokenization for Transferable Generative Recommendation

BriefGPT - AI 论文速递 ·

本研究提出MTGRec，通过多标识物品标记增强生成推荐的预训练效果，解决低频物品语义建模不足的问题。实验结果表明，MTGRec在效能和可扩展性上显著优于传统方法。

Pre-training Generative Recommendation with Multi-Identifier Item Tokenization

BriefGPT - AI 论文速递 ·

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

机器之心 ·

本研究提出了一种全景畸变感知分词方法，旨在提高从鱼眼图像中检测人物的准确性。通过分析人物在图像顶部的高度变化，结合图像重映射与分词，显著改善了检测效果，解决了人物旋转和小型人物的检测问题。

Method for Person Detection and Localization in Fisheye Images Based on Panoramic Distortion-Aware Tokenization

BriefGPT - AI 论文速递 ·

本研究提出了一种新型视觉标记器V2Flow，旨在解决传统视觉标记技术的不足。V2Flow通过流匹配将视觉标记与大型语言模型词汇结合，实现高保真重构和自回归视觉生成。实验结果表明，V2Flow在生成质量和标记整合方面优于主流VQ标记器，具有重要应用潜力。

V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种对抗性分词方法，旨在解决现有大语言模型仅考虑单一分词的问题。该方法有效绕过安全限制，并与先进的对抗性方法竞争，揭示了子词模型的新漏洞。

Adversarial Tokenization

BriefGPT - AI 论文速递 ·

本研究提出了一种新的图像令牌化方法GaussianToken，克服了现有方法在离散代码本空间的限制。该方法通过将编码样本表示为多个二维高斯特征，显著增强了图像表示能力，实验结果表明其在多个基准数据集上的重建性能具有竞争力。

Gaussian Token: An Effective Image Tokenization Method with 2D Gaussian Splatting

BriefGPT - AI 论文速递 ·

GPT做不好图生成？Tokenization是关键！新方法重新定义图生成和表示方式

机器之心 ·

从2019年到现在，是时候重新审视Tokenization了

机器之心 ·

本研究探讨了标记化过程中的NP-完全性，证明了将数据集压缩至最多$ heta$个符号的两种变体均为NP-完全问题，揭示了其对算法设计和数据压缩的重要影响。

Tokenization is NP-Complete

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，通过对ItemID进行语义对齐和引入监督学习任务，解决推荐系统中稀疏语义与大型语言模型之间的差异。实验结果表明，该模型显著提高了召回率，并增强了推荐系统的扩展性。

Semantic Convergence: Harmonizing Recommender Systems through Two-Stage Alignment and Behavioral Semantic Tokenization

BriefGPT - AI 论文速递 ·

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

机器之心 ·

本研究提出了TexTok框架，解决了现有图像标记化方法在高分辨率生成中的低压缩率问题。TexTok结合文本描述，显著提高了重建质量和生成速度，推动了图像生成技术的发展。

Language-Guided Image Tokenization Generation

BriefGPT - AI 论文速递 ·

本文探讨了固定子词分词器在非英语语言中的效率问题，提出了一种基于输入文本动态确定分词边界的方法，并引入了受BPE启发的子词合并算法，以提升推理速度和多语言公平性。

Transforming (Large) Language Models with Dynamic Tokenization

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过将语音编码为与说话者无关的离散语义标记，解决了口语术语检测中对帧级特征的依赖和动态时间规整模板匹配的计算密集性问题。实验结果表明，该方法在LibriSpeech和TIMIT数据集上优于现有基线，并且效率更高。

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

BriefGPT - AI 论文速递 ·