小红花·文摘 - 小红花技术领袖俱乐部

MANZANO：一个简单且可扩展的统一多模态模型，采用混合视觉标记器

MANZANO：一个简单且可扩展的统一多模态模型，采用混合视觉标记器

Apple Machine Learning Research ·

本研究提出了SemHiTok，一种通过语义引导的层次化代码本实现的统一图像标记器，旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取，实验结果显示在256X256分辨率下达到了先进的rFID得分。

SemHiTok: A Unified Image Tokenizer Implemented via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

BriefGPT - AI 论文速递 ·

FlexTok：将图像重采样为可变长度的1D标记序列

FlexTok：将图像重采样为可变长度的1D标记序列

Apple Machine Learning Research ·

本研究提出了一种新的分组球面量化（GSQ）方法，解决了图像标记器在可扩展性和分析全面性上的不足。GSQ-GAN在较少的训练迭代中实现了优越的重建质量，展现了高维隐空间的有效压缩与重构能力。

Expanding Image Taggers Using Group Spherical Quantization

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（VLMs）在视觉与文本信息对齐中的挑战，提出了一种创新的图像标记器，通过字节对编码将结构先验信息融入图像符号，从而显著提升模型的多模态理解能力和可扩展性。同时，研究揭示了视觉标记与文本标记的层次对应关系，推动了多模态系统的可解释性与可控性的发展。

分析视觉符号的语言

BriefGPT - AI 论文速递 ·