小红花·文摘

VL-GPT 是一种新型变压器模型，能够同时处理图像和文本，展现出色的零样本和少样本性能。研究提出了多种预训练方法，如 XGPT 和 MV-GPT，提升了图像字幕生成和多模态视频说明的效果。MiniGPT-4 和 VisualGPT 通过对齐语言模型和图像编码器，增强了生成能力。D-iGPT 改进了视觉内容理解，GenLLaVA 则结合了多模态指令跟随数据，推动了视觉助手的发展。