小红花·文摘

InternLM-XComposer2是一种先进的视觉-语言模型，能够高度定制地创建交错的文本-图像内容。它采用Partial LoRA方法，在视觉理解和文本组合之间取得平衡。实验结果表明，InternLM-XComposer2在产生高质量的长文本多模态内容和视觉-语言理解性能方面具有优势，超过了GPT-4V和Gemini Pro。