AToken是一种统一的视觉标记器,能够在图像、视频和3D资产中实现高保真重建和语义理解。它将多种视觉输入编码到共享的4D潜在空间,采用纯变换器架构和4D旋转位置嵌入,支持不同分辨率和时间长度的输入。通过对抗性无训练目标和渐进训练课程,AToken在多个基准测试中表现出色,推动了下一代多模态AI系统的发展。
完成下面两步后,将自动完成登录并继续当前操作。