小红花·文摘

MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP，解决了算力与生成效果不成正比的问题。研究表明，传统Tokenizer的重建精度与生成质量无关，而VTP强调理解力，提升生成性能。VTP展示了Tokenizer的Scaling Law，优化Tokenizer可有效提升生成系统性能。

量子位 ·

本研究提出了UniTok，一个统一的视觉分词器，旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义，通过多代码簿量化扩展潜在特征空间，显著提升视觉任务的表现。

BriefGPT - AI 论文速递 ·

LaVIT是一种多模态生成模型，将视觉和语言表达在统一的表示中，使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上，LaVIT具有卓越的多模态理解能力，在下游任务上的性能超过现有模型。

BriefGPT - AI 论文速递 ·