小红花·文摘

MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP，解决了算力与生成效果不成正比的问题。研究表明，传统Tokenizer的重建精度与生成质量无关，而VTP强调理解力，提升生成性能。VTP展示了Tokenizer的Scaling Law，优化Tokenizer可有效提升生成系统性能。

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

量子位 ·

微软开源的VibeVoice-1.5B模型在TTS领域备受关注，能够生成90分钟的高自然度语音，支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术，MOS评分达到4.5。该模型主要面向科研和开发者，目前仅支持中英文，强调研究用途以防滥用。

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

HyperAI超神经 ·

本文介绍了仓颉分词器在自然语言处理中的重要性，能够将文本转换为模型可理解的数字序列，并支持编码与解码。用户可通过华为云开发者空间快速部署Qwen2模型，体验分词器在模型开发中的应用。

跨平台分词利器：基于开发者空间进行仓颉版Tokenizer的Qwen模型适配

华为云官方博客 ·

【Rust日报】2025-07-15 GPT-rs：用 Rust 实现和训练 Transformer & Tokenizer

Rust.cc ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

机器之心 ·

本研究提出了两项创新，旨在解决预训练语言模型在固定分词方案下的低效问题，特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习，显著降低了重新训练的需求并提升了性能，展现出广泛的潜在影响。

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

BriefGPT - AI 论文速递 ·

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

机器之心 ·

本研究提出了SemHiTok，一种通过语义引导的层次化代码本实现的统一图像标记器，旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取，实验结果显示在256X256分辨率下达到了先进的rFID得分。

SemHiTok: A Unified Image Tokenizer Implemented via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

BriefGPT - AI 论文速递 ·

本研究提出了UniTok，一个统一的视觉分词器，旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义，通过多代码簿量化扩展潜在特征空间，显著提升视觉任务的表现。

UniTok: A Unified Tokenizer for Visual Generation and Understanding

BriefGPT - AI 论文速递 ·

One-D-Piece：图像Tokenizer满足质量可控压缩

实时互动网 ·

深度寻求（deepseek）近期引发全球关注，推动了大模型的热度。文章探讨了π0_FAST模型在高频机器人控制中的应用，提出了一种基于时间序列压缩的新分词技术，旨在提高VLA模型的训练效率和性能。该技术通过减少连续动作间的相关性，显著提升训练效果，并在多任务机器人操控中表现优异。

自回归版π0-FAST——打造高效Tokenizer：比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)

结构之法算法之道 ·

本研究提出了一种高效的扩散标记器DiTo，旨在提升图像生成模型中的图像标记效率和质量。实验结果表明，DiTo在图像重构和生成任务中表现优异。

Diffusion Autoencoder as a Scalable Image Tokenizer

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视觉到概念（V2C）标记器，旨在解决传统概念瓶颈模型在视觉识别中对专家知识的依赖。通过该标记器，可以直接从多模态模型构建概念瓶颈模型，从而显著提高分类准确性和可解释性。研究结果表明，V2C-CBM在多个视觉分类基准测试中表现优异。

V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer

BriefGPT - AI 论文速递 ·

微软开源了新的视频Tokenizer VidTok，其性能显著优于Cosmos Tokenizer和Open-Sora。VidTok支持多种设置，适用于不同场景，并可在自定义数据集上微调。其创新架构和量化技术提升了重建质量和训练效率，为视频生成和世界模型研究提供了强大工具。

微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

量子位 ·

该研究提出了一种新颖的多层最优传输方法，克服了现有知识蒸馏在教师和学生模型对齐标记器方面的局限性。该方法在抽取式问答、生成式问答和摘要任务中表现优异，超越了现有技术，展现出强鲁棒性。

Multi-Level Optimal Transport Method for Universal Cross-Tokenizer Knowledge Distillation

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ECG-Byte的分词器，用于多通道心电图生成文本任务。该方法通过自回归语言建模，将心电图信号压缩为可映射的令牌，实现端到端训练。与传统方法相比，ECG-Byte在性能上具有竞争力，训练时间减少一半，数据需求降低约48%。

ECG-Byte: A Tokenizer for End-to-End Generative Electrocardiogram

BriefGPT - AI 论文速递 ·

本文介绍了一种名为VidTok的开源视频标记器，旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进，并采用有限标量量化技术，显著提升了性能，优于现有方法。

VidTok: A Versatile Open-Source Video Tokenizer

BriefGPT - AI 论文速递 ·

本研究提出了一种基于离散小波变换的图像光谱标记新方法，解决了现有图像标记器在自回归建模中的不足。该方法能够重构不同分辨率的图像，并提高下一个标记预测的条件化效果，显著改善多尺度图像生成和上采样能力。

Spectral Image Tokenizer

BriefGPT - AI 论文速递 ·

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

机器之心 ·