Apple Machine Learning Research ·

AToken：一种统一的视觉标记器

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

AToken是一种统一的视觉标记器，能够在图像、视频和3D资产中实现高保真重建和语义理解。它将多种视觉输入编码到共享的4D潜在空间，采用纯变换器架构和4D旋转位置嵌入，支持不同分辨率和时间长度的输入。通过对抗性无训练目标和渐进训练课程，AToken在多个基准测试中表现出色，推动了下一代多模态AI系统的发展。

🎯

关键要点

AToken是一种统一的视觉标记器，能够在图像、视频和3D资产中实现高保真重建和语义理解。
AToken将多种视觉输入编码到共享的4D潜在空间，统一了重建和理解任务。
采用纯变换器架构和4D旋转位置嵌入，支持不同分辨率和时间长度的输入。
引入对抗性无训练目标，结合感知损失和Gram矩阵损失，确保稳定训练并实现最先进的重建质量。
通过渐进训练课程，AToken逐步扩展支持单幅图像、视频和3D，支持连续和离散潜在标记。
在多个基准测试中，AToken在图像、视频和3D任务中表现出色，推动了下一代多模态AI系统的发展。

🔎

延伸解读

AToken的创新架构

AToken采用纯变换器架构和4D旋转位置嵌入，能够处理不同分辨率和时间长度的视觉输入。这种设计使得AToken在多模态任务中具备更强的灵活性和适应性，能够同时满足重建和理解的需求，推动了视觉AI技术的进步。

对抗性无训练目标的优势

AToken引入了对抗性无训练目标，结合感知损失和Gram矩阵损失，确保了训练过程的稳定性。这一创新不仅提升了重建质量，还为未来的多模态AI系统提供了更为可靠的训练方法，值得关注其在实际应用中的表现。

渐进训练课程的应用

通过渐进训练课程，AToken逐步扩展支持单幅图像、视频和3D资产。这种方法有助于模型在不同任务间的迁移学习，提升了其在实际应用中的适应能力，尤其是在处理复杂的多模态数据时。

❓

延伸问答

AToken的主要功能是什么？

AToken是一种统一的视觉标记器，能够在图像、视频和3D资产中实现高保真重建和语义理解。

AToken如何处理不同类型的视觉输入？

AToken将多种视觉输入编码到共享的4D潜在空间，统一了重建和理解任务。

AToken采用了什么样的架构？

AToken采用纯变换器架构和4D旋转位置嵌入，支持不同分辨率和时间长度的输入。

AToken在训练过程中使用了哪些技术？

AToken引入对抗性无训练目标，结合感知损失和Gram矩阵损失，确保稳定训练并实现最先进的重建质量。

AToken在基准测试中的表现如何？

AToken在多个基准测试中表现出色，例如图像任务的准确率为82.2%，视频任务的rFVD为3.01，3D任务的PSNR为28.28。

AToken可以应用于哪些下游任务？

AToken支持视觉生成任务和理解任务，包括图像生成、文本到视频生成和图像到3D合成等。

🏷️