晓飞的算法工程笔记 ·

CeiT：商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv - 晓飞的算法工程笔记

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

论文提出CeiT混合网络，结合了CNN的局部性优势与Transformer的长距离依赖能力。CeiT在ImageNet及下游任务中表现优异，收敛速度快，且无需大量预训练数据，降低了训练成本。

🎯

关键要点

CeiT混合网络结合了CNN的局部性优势和Transformer的长距离依赖能力。
CeiT在ImageNet和下游任务中达到了SOTA，收敛速度更快。
CeiT不需要大量的预训练数据和额外的CNN蒸馏监督，降低了训练成本。
论文提出了Imageto-Tokens（I2T）模块，优化了初始token序列的生成。
I2T模块通过卷积层和最大池化层提取低维特征，降低了embedding的训练难度。
Locally-enhanced FeedForward Network（LeFF）层结合了CNN和Transformer的优势。
Layer-wise Class-token Attention（LCA）模块综合不同层的class token作为最终特征。
CeiT模型在计算成本略有增加的情况下，获得了更高的性能和更好的收敛性。

❓

延伸问答

CeiT模型的主要优势是什么？

CeiT模型结合了CNN的局部性优势和Transformer的长距离依赖能力，在ImageNet和下游任务中表现优异，收敛速度快，且降低了训练成本。

CeiT模型如何优化初始token序列的生成？

CeiT模型通过Imageto-Tokens（I2T）模块优化初始token序列的生成，利用卷积层和最大池化层提取低维特征。

CeiT模型在训练数据需求上有什么特点？

CeiT模型不需要大量的预训练数据和额外的CNN蒸馏监督，降低了训练成本。

CeiT模型的收敛性如何？

CeiT模型的收敛性更好，训练迭代次数减少了3倍，显著提高了训练效率。

CeiT模型中LeFF层的作用是什么？

LeFF层结合了CNN和Transformer的优势，替代了原有的前馈网络层，以增强局部信息提取能力。

CeiT模型在计算成本上有什么变化？

CeiT模型在计算成本略有增加的情况下，获得了更高的性能和更好的收敛性。

🏷️

标签

CNN CeiT Transformer 商汤图像识别工程混合网络算法

➡️

继续阅读

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
有传言称谷歌正在研发名为Frozen v2的芯片将AI模型部分蚀刻到芯片上提高吞吐量
#人工智能谷歌也尝试将模型权重直接蚀刻到硅晶片中，谷歌正在研发的 Frozen v2 芯片 token 吞吐量是谷歌现有 TPU 单元的 6~10 倍。...
AWS Billing Bug Shows Customers Trillion-Dollar Estimates While Its Own Cost Alarms Fail to Act
A configuration change in AWS's bill computation system showed customers ...
【公共云三十问之九】先进公共云的发展蓝图包括哪些方面？
等能力，高效聚合数据、算力、算法等智能要素，可靠转化为可调用、可扩展、可复用的智能服务，并广泛、便捷地触达产业、民生、科技和全球发展等关键应用场景，充分发...
Parti：一个零门槛联机游戏平台，凭什么不需要服务器？
Matrix首页推荐Matrix是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选Matrix最优质的文章，展示来自...