Croc:通过跨模态理解预训练大型多模态模型

📝

内容提要

本研究解决了大型多模态模型(LMMs)预训练阶段的关键问题,提出一种新颖的跨模态理解预训练范式。通过引入动态可学习的提示令牌池和综合性的混合注意机制,显著提升了LLMs的视觉理解能力,实验结果表明Croc在多个大型视觉-语言基准测试中实现了最新的领先性能。

➡️

继续阅读