【vLLM 学习】Encoder Decoder Multimodal
💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
文章通过具体示例和对比,阐明了三种主流开源模型架构(Causal Decoder、Prefix Decoder、Encoder-Decoder)的区别及其在NLP、多模态和计算机视觉等领域的应用,强调了注意力机制和输入输出关系的差异,以帮助用户更好理解。
🎯
关键要点
- 文章阐明了三种主流开源模型架构的区别:Causal Decoder、Prefix Decoder、Encoder-Decoder。
- 三种架构在自然语言处理(NLP)、多模态和计算机视觉(CV)等领域的应用各有侧重。
- 在NLP中,Causal Decoder用于文本生成,Prefix Decoder用于对话系统,Encoder-Decoder用于翻译和摘要。
- 多模态任务结合视觉编码器和文本解码器,三种架构均可应用。
- 计算机视觉主要使用纯Encoder架构,直接输出预测结果。
- Causal Decoder的注意力机制是单向的,只能看到当前词左侧的信息。
- Prefix Decoder的注意力机制是前缀部分双向,生成部分单向。
- Encoder-Decoder的注意力机制是编码器完全双向,解码器单向但可访问编码器的全部信息。
- 对比表格总结了三种架构在输入处理、输出生成和典型任务上的差异。
- 实际应用场景示例包括多语言翻译、视觉问答和图像分类,展示了不同架构的具体应用。
➡️