晓飞的算法工程笔记 ·

CPVT：美团提出动态位置编码，让ViT的输入更灵活 | ICLR 2023 - 晓飞的算法工程笔记

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

论文提出了一种新的视觉Transformer位置编码方法CPE，基于每个token的局部邻域信息动态生成位置编码。CPE结合了CNN和Transformer的优点，能够处理长输入序列并保持平移不变性。实验结果表明，基于CPE的CPVT在图像分类任务中优于传统位置编码方法。

🎯

❓

条件位置编码（CPE）是一种动态生成的位置编码方法，基于每个token的局部邻域信息，旨在提高视觉Transformer的性能。

CPVT模型结合了CPE的优点，能够处理长输入序列并保持平移不变性，在图像分类任务中表现优于传统位置编码方法。

PEG的插入位置对模型性能有显著影响，最佳插入位置是在第一个encoder之后。

CPVT在ImageNet分类任务中达到了SOTA（state-of-the-art）结果，展示了CPE的有效性。

CPE是动态生成的，与输入token的局部邻域相关，而传统位置编码通常是固定或可学习的，与输入无关。

CVPT-GAP模型去掉了class token，采用全局平均池（GAP）输出，提升了平移不变性和性能。

🏷️