晓飞的算法工程笔记 ·

T2T-ViT：更多的局部结构信息，更高效的主干网络 | ICCV 2021 - 晓飞的算法工程笔记

💡 原文中文，约3800字，阅读约需10分钟。

📝

内容提要

论文提出了T2T-ViT模型，通过引入tokens-to-token（T2T）模块有效融合图像结构信息，并设计了深窄的ViT主干网络，增强特征丰富性。在ImageNet上，T2T-ViT在零训练时性能优于ResNets，与MobileNets相当。

🎯

关键要点

论文提出了T2T-ViT模型，引入tokens-to-token（T2T）模块，有效融合图像结构信息。
T2T-ViT设计了深窄的ViT主干网络，增强特征丰富性。
在ImageNet上，T2T-ViT在零训练时性能优于ResNets，与MobileNets相当。
ViT在中型数据集上从零训练时性能不如CNN，主要源于局部结构信息建模不足。
T2T模块通过Re-structurization和Soft Split逐步将图像结构化为token，并减少token数量。
T2T-ViT主干网络设计为deep-narrow架构，具有较小的通道数和更多的层数。
论文设计了多个T2T-ViT模型以便与ResNet和MobileNet进行比较，展示了其有效性。

❓

延伸问答

T2T-ViT模型的主要创新点是什么？

T2T-ViT模型通过引入tokens-to-token（T2T）模块有效融合图像结构信息，并设计了深窄的ViT主干网络，增强特征丰富性。

T2T模块是如何处理图像的结构信息的？

T2T模块通过Re-structurization和Soft Split逐步将图像结构化为token，并减少token数量，从而建模局部结构信息。

T2T-ViT在ImageNet上的表现如何？

在ImageNet上，T2T-ViT在零训练时性能优于ResNets，与MobileNets相当。

为什么ViT在中型数据集上的性能不如CNN？

ViT在中型数据集上性能不如CNN主要是因为局部结构信息建模不足。

T2T-ViT的主干网络设计有什么特点？

T2T-ViT的主干网络设计为deep-narrow架构，具有较小的通道数和更多的层数。

论文中提到的T2T-ViT模型与ResNet和MobileNet的比较结果如何？

论文设计了多个T2T-ViT模型与ResNet和MobileNet进行比较，结果显示T2T-ViT在性能上优于ResNet，并与MobileNet相当。

🏷️

标签

ImageNet T2T-ViT ViT主干网络图像结构工程特征丰富性算法

➡️

继续阅读

Kimi K3: White House alleges Fable 5 siphoning
Top White House technology official Michael Kratsios on Wednesday accused Chi...
Agents keep changing their answers. Harness just built delivery pipelines that don’t care.
Software delivery lifecycle company (SDLC) Harness wants to put agents throug...
美图拿出1亿元，面向全行业寻找AI影像Builder
美图产品挑战赛（Meitu Hatch Catch）火热报名中
OpenAI built support agents for its own customer service line, now it hopes big enterprises will trust them too
The general consensus emerging across the AI and industrial spheres is that t...
Building a serverless AI assistant at Pelago: concept to care in two weeks
Healthcare organizations face a critical scaling challenge – how to maintain ...
Visual Studio Code 1.130（Insiders）
Visual Studio Code 1.130 Insiders版本发布，新增功能更新。用户可通过提交日志和已关闭问题列表跟踪进展，鼓励大家尽快尝试新特性。