【vLLM 学习】Encoder Decoder Multimodal
💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
文章通过具体示例和对比,阐明了三种主流开源模型架构(Causal Decoder、Prefix Decoder、Encoder-Decoder)的区别及其在NLP、多模态和计算机视觉等领域的应用,强调了注意力机制和输入输出关系的差异,以帮助用户更好理解。
🎯
关键要点
- 文章阐明了三种主流开源模型架构的区别:Causal Decoder、Prefix Decoder、Encoder-Decoder。
- 三种架构在自然语言处理(NLP)、多模态和计算机视觉(CV)等领域的应用各有侧重。
- 在NLP中,Causal Decoder用于文本生成,Prefix Decoder用于对话系统,Encoder-Decoder用于翻译和摘要。
- 多模态任务结合视觉编码器和文本解码器,三种架构均可应用。
- 计算机视觉主要使用纯Encoder架构,直接输出预测结果。
- Causal Decoder的注意力机制是单向的,只能看到当前词左侧的信息。
- Prefix Decoder的注意力机制是前缀部分双向,生成部分单向。
- Encoder-Decoder的注意力机制是编码器完全双向,解码器单向但可访问编码器的全部信息。
- 对比表格总结了三种架构在输入处理、输出生成和典型任务上的差异。
- 实际应用场景示例包括多语言翻译、视觉问答和图像分类,展示了不同架构的具体应用。
❓
延伸问答
Causal Decoder的注意力机制是什么样的?
Causal Decoder的注意力机制是单向的,只能看到当前词左侧的信息。
在自然语言处理领域,哪种模型架构适合翻译任务?
在自然语言处理领域,Encoder-Decoder架构适合翻译任务。
Prefix Decoder在多模态任务中如何应用?
Prefix Decoder在多模态任务中可用于多轮图文对话,例如GPT-4V的交互式问答。
Encoder-Decoder架构的输入输出关系是怎样的?
Encoder-Decoder架构的输入是完全双向的,而输出是单向的,但解码器可以访问编码器的全部信息。
计算机视觉领域主要使用哪种模型架构?
计算机视觉领域主要使用纯Encoder架构,如ViT和ResNet。
三种模型架构在输入处理上有什么区别?
Causal Decoder是单向处理,Prefix Decoder是前缀双向加生成单向,Encoder-Decoder是输入完全双向。
➡️