小红花·文摘

本文回顾了最近的面向视觉的多模态大型语言模型的体系结构、对齐策略和训练技术，并对其在多个任务上的应用进行了详细分析。同时，还比较了现有模型的性能和计算要求，为未来的多模态大型语言模型奠定了基础。