小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

生成式推荐模型通过将用户行为数据转化为机器可读格式,将推荐任务视为生成任务。尽管在感知和认知领域已有成功模型,行为领域的推荐模型仍在发展中。本文探讨了生成式推荐的挑战、技术及未来方向,强调了token化在推荐系统中的重要性。

[笔记] 从 Tokenization 视角看生成式推荐(GR)近几年的发展(2025)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-11-27T00:00:00Z
[笔记] 从 Tokenization 视角看生成式推荐(GR)近几年的发展(2025)

生成式推荐模型正在改变推荐系统,通过将用户行为数据转化为机器可读格式,提升推荐效果。文章探讨了生成式推荐的挑战与未来发展方向,强调大型生成模型,特别是语言模型在优化推荐过程中的潜力。

[笔记] 从 Tokenization 视角看生成式推荐(GR)近几年的发展(2025)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-11-27T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布

机器之心
机器之心 · 2025-08-06T02:19:22Z
基础自然语言处理

NLTK是一个用于自然语言处理的Python库,提供分类、分词和词干提取等功能。文章通过示例代码展示了如何使用split()和tokenize进行文本分割,并强调了分词的重要性。

基础自然语言处理

DEV Community
DEV Community · 2025-05-28T10:16:29Z

本研究提出了GroverGPT-2模型,旨在解决经典机器学习与模拟量子算法的问题。该模型基于大语言模型,能够处理量子电路表示,提供逻辑结构和可解释性。研究表明,GroverGPT-2有效捕获量子电路的逻辑,为量子计算的教育和研究开辟了新方向。

GroverGPT-2: Simulating Grover's Algorithm via Chain-of-Thought Reasoning and Quantum-Native Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种通用项目标记化方法UTGRec,旨在解决生成推荐中的域特定性问题。UTGRec通过多模态大型语言模型和树状结构代码本实现内容的离散编码。实验结果表明,UTGRec在多个数据集上优于传统推荐方法,展现出强大的跨域迁移能力。

Universal Item Tokenization for Transferable Generative Recommendation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出MTGRec,通过多标识物品标记增强生成推荐的预训练效果,解决低频物品语义建模不足的问题。实验结果表明,MTGRec在效能和可扩展性上显著优于传统方法。

Pre-training Generative Recommendation with Multi-Identifier Item Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

研究者提出了一种名为FlowMo的图像tokenization改进方案,通过两阶段训练提升图像重建质量。FlowMo在ImageNet-1K数据集上表现优异,采用基于Transformer的扩散自编码器,优化了图像压缩与重建过程。

李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

机器之心
机器之心 · 2025-03-20T06:30:46Z

本研究提出了一种全景畸变感知分词方法,旨在提高从鱼眼图像中检测人物的准确性。通过分析人物在图像顶部的高度变化,结合图像重映射与分词,显著改善了检测效果,解决了人物旋转和小型人物的检测问题。

Method for Person Detection and Localization in Fisheye Images Based on Panoramic Distortion-Aware Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种新型视觉标记器V2Flow,旨在解决传统视觉标记技术的不足。V2Flow通过流匹配将视觉标记与大型语言模型词汇结合,实现高保真重构和自回归视觉生成。实验结果表明,V2Flow在生成质量和标记整合方面优于主流VQ标记器,具有重要应用潜力。

V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了一种对抗性分词方法,旨在解决现有大语言模型仅考虑单一分词的问题。该方法有效绕过安全限制,并与先进的对抗性方法竞争,揭示了子词模型的新漏洞。

Adversarial Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究提出了一种新的图像令牌化方法GaussianToken,克服了现有方法在离散代码本空间的限制。该方法通过将编码样本表示为多个二维高斯特征,显著增强了图像表示能力,实验结果表明其在多个基准数据集上的重建性能具有竞争力。

Gaussian Token: An Effective Image Tokenization Method with 2D Gaussian Splatting

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z
GPT做不好图生成?Tokenization是关键!新方法重新定义图生成和表示方式

G2PT是一种新型图生成模型,通过序列化表示提高计算效率,显著优于传统的邻接矩阵方法。该模型在药物设计和图属性预测等多个任务中表现出色,展现了广泛的适应性和优越性能,为图生成领域提供了新思路。

GPT做不好图生成?Tokenization是关键!新方法重新定义图生成和表示方式

机器之心
机器之心 · 2025-01-06T07:34:00Z
从2019年到现在,是时候重新审视Tokenization了

2019年发布的GPT-2采用BPE算法进行tokenization,但效果有限。HuggingFace的研究表明,tokenization对模型的算术能力有显著影响,单位数tokenization在处理数字和复杂算术问题上表现优于其他方法,而右到左的tokenization也显示出优势。

从2019年到现在,是时候重新审视Tokenization了

机器之心
机器之心 · 2025-01-04T09:44:45Z

本研究探讨了标记化过程中的NP-完全性,证明了将数据集压缩至最多$ heta$个符号的两种变体均为NP-完全问题,揭示了其对算法设计和数据压缩的重要影响。

Tokenization is NP-Complete

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种新框架,通过对ItemID进行语义对齐和引入监督学习任务,解决推荐系统中稀疏语义与大型语言模型之间的差异。实验结果表明,该模型显著提高了召回率,并增强了推荐系统的扩展性。

Semantic Convergence: Harmonizing Recommender Systems through Two-Stage Alignment and Behavioral Semantic Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了

BLT(字节潜在 Transformer)通过直接建模原始字节流,取代传统的基于 token 的架构,展现出更高效的计算能力和更强的鲁棒性。研究表明,BLT 在处理多样化和噪声输入时表现优越,并在推理过程中节省了高达50%的计算资源,为大型语言模型开辟了新方向。

Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了

机器之心
机器之心 · 2024-12-17T02:18:00Z

本研究提出了TexTok框架,解决了现有图像标记化方法在高分辨率生成中的低压缩率问题。TexTok结合文本描述,显著提高了重建质量和生成速度,推动了图像生成技术的发展。

Language-Guided Image Tokenization Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本文探讨了固定子词分词器在非英语语言中的效率问题,提出了一种基于输入文本动态确定分词边界的方法,并引入了受BPE启发的子词合并算法,以提升推理速度和多语言公平性。

Transforming (Large) Language Models with Dynamic Tokenization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了一种新方法,通过将语音编码为与说话者无关的离散语义标记,解决了口语术语检测中对帧级特征的依赖和动态时间规整模板匹配的计算密集性问题。实验结果表明,该方法在LibriSpeech和TIMIT数据集上优于现有基线,并且效率更高。

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码