单一内部视觉模型：推动内生视觉预训练的单一多模态大型语言模型的边界

本研究解决了单一多模态大型语言模型（MLLM）在集成视觉编码与语言解码的过程中面临的训练困难，尤其是灾难性遗忘的问题。提出了Mono-InternVL模型，通过在预训练语言模型中嵌入视觉参数并采用内生视觉预训练策略，显著提升了模型的视觉能力和部署效率，实验结果显示该模型在多个基准上优于现有最先进的MLLM。

多模态大型语言模型（MLLMs）在生成智能中起重要作用。本文回顾了视觉导向的MLLMs，分析其架构、多模态对齐策略和训练技术，探讨其在视觉定位、图像生成与编辑、视觉理解等任务中的应用，并比较性能和计算需求。总结了训练数据集和评估基准，为未来发展提供基础。

图像生成多模态大型语言模型视觉导向视觉理解语言模型