💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
该文章介绍了DaViT视觉编码器的结构,包括动态操作的四个阶段、投影层、语言编码器和自回归解码器,强调了动态序列长度和交叉注意力面临的挑战。
🎯
关键要点
- 文章介绍了DaViT视觉编码器的结构。
- DaViT视觉编码器包括四个阶段:stage0、stage1、stage2和stage3。
- 每个阶段的输入输出尺寸分别为768→192、192→96、96→48和48→24。
- 投影层将1024维的输入投影到768维,并添加位置编码。
- 语言编码器由6层Transformer组成。
- 自回归解码器也由6层构成,面临动态序列长度的挑战。
- 交叉注意力是自回归解码器中的一个重要组成部分,存在动态cross-attention的挑战。
➡️