本文回顾了最近的面向视觉的多模态大型语言模型的体系结构、对齐策略和训练技术,并对其在多个任务上的应用进行了详细分析。同时,还比较了现有模型的性能和计算要求,为未来的多模态大型语言模型奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。