小红花·文摘

本研究提出M2IV方法，以解决大型视觉语言模型中的多模态上下文学习挑战。通过引入可学习的上下文向量，增强了模型的表示能力。实验结果显示，M2IV在多个基准测试中平均准确率提高了3.74%，且效率显著提升。