小红花·文摘

本文介绍了Transformer多头注意力机制及其在计算机视觉模型中的应用。传统的多头注意力机制计算复杂且训练收敛速度慢，因此提出了可变形多头注意力机制来降低计算复杂度。可变形多头注意力机制通过对每个查询元素选择一小部分特征进行注意力计算，从而减少计算量。文章还介绍了可变形多头注意力机制v2，该机制使用共享的全局偏移键来减少内存消耗。最后，文章提到了多尺度可变形多头注意力机制，用于支持具有不同空间分辨率的多尺度特征图。可变形多头注意力机制v2相比传统多头注意力机制具有更低的内存消耗和更接近卷积的特点。