一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战(下)
原文约9200字,阅读约需22分钟。发表于: 。本文章由飞桨星河社区开发者高宏伟贡献。高宏伟,飞桨开发者技术专家(PPDE),飞桨领航团团长,长期在自媒体领域分享AI技术知识,博客粉丝9w+,飞桨星河社区ID为GoAI 。分享分为上下两期,本期分享从主流多模态模型和多模态实战项目等方面介绍多模态。上篇文章主要从时间线对多模态模型进行总结,在文章最后引入模态对齐概念,本篇文章将针对经典的多模态模型展开详细介绍,围绕多模态模型如何进行模态对齐,最后...
本文介绍了多模态模型的基本思想、结构和训练数据集情况,并详细介绍了CLIP、BLIP和BLIP2等经典多模态模型。同时,介绍了飞桨多模态框架PaddleMIX和其在VQA和Caption任务中的应用。