LION：赋能双层视觉知识的多模态大语言模型

多模态大型语言模型（MLLMs）借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法，我们的模型在多个多模态基准测试中展示了过人的优越性能。

MMICL是解决图像与文本交叉多模态提示问题的方法，取得了新的最先进的零样本和少样本性能，并成功缓解了视觉-语言模型中的语言偏差问题。