HyperAI超神经 ·

【vLLM 学习】Encoder Decoder Multimodal

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

文章通过具体示例和对比，阐明了三种主流开源模型架构（Causal Decoder、Prefix Decoder、Encoder-Decoder）的区别及其在NLP、多模态和计算机视觉等领域的应用，强调了注意力机制和输入输出关系的差异，以帮助用户更好理解。

🎯

🔎

不同的模型架构在特定任务中表现各异。Causal Decoder适合文本生成，Prefix Decoder更适合对话系统，而Encoder-Decoder则在翻译和摘要任务中表现优越。了解这些差异有助于选择合适的模型以提高任务效率。

注意力机制是理解模型架构的关键。Causal Decoder的单向注意力限制了信息流动，而Encoder-Decoder的双向注意力则能更全面地理解输入。这种差异直接影响模型在复杂任务中的表现，尤其是在需要上下文理解的场景中。

在多模态任务中，结合视觉和文本信息的能力至关重要。不同架构在处理图像和文本的结合时表现不同，Prefix Decoder在多轮对话中更具优势，而Encoder-Decoder则适合生成结构化描述。选择合适的架构可以提升多模态任务的效果。

❓

Causal Decoder的注意力机制是单向的，只能看到当前词左侧的信息。

在自然语言处理领域，Encoder-Decoder架构适合翻译任务。

Prefix Decoder在多模态任务中可用于多轮图文对话，例如GPT-4V的交互式问答。

Encoder-Decoder架构的输入是完全双向的，而输出是单向的，但解码器可以访问编码器的全部信息。

计算机视觉领域主要使用纯Encoder架构，如ViT和ResNet。

Causal Decoder是单向处理，Prefix Decoder是前缀双向加生成单向，Encoder-Decoder是输入完全双向。

🏷️