AToken是一种统一的视觉标记器,能够在图像、视频和3D资产中实现高保真重建和语义理解。它将多种视觉输入编码到共享的4D潜在空间,采用纯变换器架构和4D旋转位置嵌入,支持不同分辨率和时间长度的输入。通过对抗性无训练目标和渐进训练课程,AToken在多个基准测试中表现出色,推动了下一代多模态AI系统的发展。
本研究提出了一种新型视觉标记器V2Flow,旨在解决传统视觉标记技术的不足。V2Flow通过流匹配将视觉标记与大型语言模型词汇结合,实现高保真重构和自回归视觉生成。实验结果表明,V2Flow在生成质量和标记整合方面优于主流VQ标记器,具有重要应用潜力。
本研究探讨了视觉标记器在图像和视频生成中的扩展问题,提出了一种增强的视觉Transformer架构(ViTok),结果表明解码器的扩展显著提升了重建效果,为未来的视觉生成任务提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。